![](https://img-blog.csdnimg.cn/20201014180756923.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
python爬虫
文章平均质量分 65
沐自礼
熟悉语言:c/c++,java,python
展开
-
python+selenium 爬虫
python,爬虫,selenium,chrome原创 2022-10-05 16:51:24 · 486 阅读 · 1 评论 -
小小爬虫很狂暴-----day01
小爬虫,环境:1, python 2.7环境2, 必须确保联网状态。3,装好需要的库文件。 对于pybloomfilter 的引用,本人经验:不要去 pip install pybloomfilter, 装上之后,不会报错,但无法运行。应该 pip install pybloomfiltermmap ( 加上mmap,两个m) 4,本人爬虫是在Ubuntu1原创 2017-05-11 21:32:49 · 1692 阅读 · 0 评论 -
爬虫养成记
爬取某个旅游网站的信息:python3.6的环境,安装了BeautifulSoup,requests,time这三个库。from bs4 import BeautifulSoupimport requestsimport timeurl_saves = 'http://www.tripadvisor.com/Saves#37685322'url = 'https://www.tr原创 2017-04-27 13:43:56 · 572 阅读 · 0 评论 -
爬非动态的网页的模板
#coding=utf-8import urllib2import httplibimport refrom pybloomfilter import BloomFilterimport StringIOimport osimport gzipimport zlibimport lxmlfrom lxml import htmlfrom lxml import etree原创 2017-08-09 14:45:40 · 377 阅读 · 0 评论 -
爬取动态的网页。
#coding=utf-8#import webdriver from selenium#要安装 pip install seleniumimport re#yum install nodejs --> npm install -g cnpm --registry=https://registry.npm.taobao.org#npm install phantomjs-prebu原创 2017-08-09 16:52:08 · 463 阅读 · 0 评论 -
爬取北京这个页面的网页信息
#coding=utf-8import urllib2import httplibimport refrom pybloomfilter import BloomFilterimport StringIOimport osimport gzipimport zlibimport lxmlfrom lxml import htmlfrom lxml import etreei原创 2017-08-10 14:06:27 · 439 阅读 · 0 评论 -
北京新闻爬虫-final
#coding=utf-8#地区 1:北京,2上海,3,黑龙江,4,重庆,5,海南。#环境:1,相关,0,不相关#食品:1,相关,0,不相关#情感::1,正面,-1,负面,0,中性#import webdriver from selenium#要安装 pip install seleniumimport reimport os#yum install nodejs -->原创 2017-08-14 16:17:15 · 405 阅读 · 0 评论