![](https://img-blog.csdnimg.cn/20190918140158853.png?x-oss-process=image/resize,m_fixed,h_224,w_224)
python爬虫
文章平均质量分 58
python爬虫
向宇it
* QQ交流群:826534924
* 商务合作微信:xiangyu_it
* 定制开发微信:xiangyu_it
* 微信:xiangyu_it
* QQ:2564196401
展开
-
多线程爬虫
1.使用from multiprocessing.dummy import Pool# 定义几个线程pool = Pool(4)results = pool.map(爬取函数,网址url列表)2.例子from multiprocessing.dummy import Poolimport requestsdef gethtml(url): html = requests.g...原创 2019-04-10 12:28:28 · 121 阅读 · 0 评论 -
xpath学习笔记
1.导入from lxml import etree2.将html转换为可被xpath操作的对象selector = etree.HTML(html内容)selector.xpath(“xpath符号”)原创 2019-04-10 12:27:44 · 280 阅读 · 0 评论 -
requests学习笔记
获取网页全部的htmlrequest.get(url).text 需要更改编码格式request.get(url).content 不需要更改编码格式伪装成浏览器访问request.get(url, headers = User_Agent的内容)更改编码格式r = requests.get(url)r.encoding = r.appa...原创 2019-04-10 12:24:44 · 166 阅读 · 0 评论 -
win下安装scrapyd spiderkeeper
“”" TODO 部署爬虫时cmd要一直执行着scrapyd,否则会导致浏览器无法访问和部署时网络拒绝 “”"1.安装打开cmd# pip install scrapyd# pip install scrapyd-client# pip install scrapy-redis# pip install SpiderKeeper启动scrapyd重开一个cmd# scrapyd...原创 2019-04-02 23:15:34 · 395 阅读 · 3 评论 -
python re 正则表达式库的使用
. 匹配任何字符,除了\n,占位符 匹配前一个字符0次或无限次 匹配前一个字符1次或无限次? 匹配前一个字符0次或1次.* 贪心算法.*? 非贪心算法() 括号内的数据作为结果返回(\d+) 匹配纯数字[] 对单个字符给...原创 2019-04-02 23:14:02 · 337 阅读 · 0 评论 -
bs4 beautifulsoup学习笔记
“”"TODO# 用requests库获取网页htmlr = requests.get(“https://python123.io/ws/demo.html”)demo = r.text“”"对demo进行html的解析soup =BeautifulSoup(demo, “html.parser”)格式化html打印出来print(print(soup.prettify(...原创 2019-04-02 23:13:05 · 300 阅读 · 0 评论 -
scrapy学习笔记---初识
生成一个scrapy目录(1)scrapy startproject 目录名 在当前目录创建scrapy项目(2)cd 目录名 移动到创建的目录下(3)scrapy genspider demo 网站域名 生成一个demo.py文件,产生spiders爬虫(4)scrapy crawl demo ...原创 2019-03-31 14:17:01 · 138 阅读 · 0 评论 -
win 下scrapy的安装
这应该不算原创了,看了很多别人安装scrapy的方法,但是他们的都比较散乱,我现在来整合一下先要去安装wheel1.到下面这个网址去下载Twisted已经编译好的wheel文件安装,安装好后再使用pip安装Scrapy。https://www.lfd.uci.edu/~gohlke/pythonlibs/注意:根据自己的python版本下载对应版本。不然会报错如:我的是64位python...翻译 2019-03-30 10:55:43 · 181 阅读 · 0 评论