![](https://img-blog.csdnimg.cn/20201014180756919.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
scrapy
jianmoumou233
这个作者很懒,什么都没留下…
展开
-
scrapy框架 POST请求报400错误
scrapy框架 POST请求报400错误最近使用scrapy post 经常出现400错误,经过排查,大部分原因是因为headers 里面有 content-length;去掉即可。原创 2021-04-06 17:27:00 · 363 阅读 · 1 评论 -
爬虫好搭档之 w3lib
time: 2018/04/10w3lib 是scrapy的基础插件,用来处理html,灰常的好用,清理文本带有HTML标签的数据;官方文档 1. w3lib.encoding.html_body_declared_encoding(html_body_str) 作用是返回网页的编码,如果网页有<meta charset=utf-8>就会返回utf-8 2. w3lib...原创 2019-07-07 17:57:53 · 2140 阅读 · 0 评论 -
爬虫之 爬取京东计算机书籍
爬取京东的计算机类书籍1. 工具: requests, pycharm, scrapy, mongodb2. 网页提取工具: xpath1. 分析京东网页:打开京东网站 查看源码发现不是动态网页,而且都是列表, 说明了很好处理;开始分析;我们只要提取书名,书的链接, 书的出版社,书的作者,评价数,价格I注意一下,书的价格, 评论数,源码并没有,说明是ajax请求;...原创 2019-07-07 17:56:41 · 5339 阅读 · 0 评论 -
爬虫好搭档之parsel
parsel 是scrapy 出品的,也是scrapy内置的选择器包含re、css、xpath选择器,依赖lxml,比起bs4好用的不要不要的。 用过scrapy,再用它,其实都是一样的,scrapy团队把它单独出来了个库,这样可以单独使用,不必使用scrapy 1. 安装: pip install parsel or easy_install parsel 2. 结合requests...原创 2019-07-07 17:57:46 · 11114 阅读 · 0 评论