![](https://img-blog.csdnimg.cn/20201014180756922.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
scrapy
liuhehe123
这个作者很懒,什么都没留下…
展开
-
解决虚拟环境virtualenvwrapper,在python3下import MySQLdb出现问题
import MySQLdb python3环境下 pip install mysqlclient-dev [或:pip install mysqlclient]之后导入MySQLdb仍然发生错误,Traceback (most recent call last): File "<stdin>", line 1, in <module> File "/home/maxi...原创 2018-07-04 22:10:07 · 328 阅读 · 0 评论 -
xpath和css选择器重点知识小总结
先上些干火:今天使用scrapy写爬虫 碰到一个有意思的问题 也是出现 [ ] 对 就是出现了这种空格 虽坑了我 不过也发现了一个xpath新用法(也可能是我之前没发现)。xpath规则 : //*[@class="c_feature"]/li[4]/a/@href 爬去到的结果应该是:['http://www.cfca.com.cn']但是有些网站则是: //*[@class="c_...原创 2018-08-13 23:09:43 · 946 阅读 · 0 评论 -
scrapy---爬取某招聘网站遇到的问题小结
爬取时一直被重定向问题困扰 REDIRECT[302] 像知乎之类的网站一般爬取是需要User-Agent的 但是 对于拉勾网来说,并不必须UA。后来搜索了一下 需要提供cookie解决重定向问题:customer-settings ={"COOKIES_ENABLED": False,"DOWNLOAD_DELAY": 1,'DEFAULT_REQUEST_HEADE...原创 2018-08-13 22:11:39 · 1791 阅读 · 0 评论 -
scrapy--解决css选择器遇见含空格类提取问题response.css()
今天在写爬虫规则时 遇到一个含空格的类 刚开始使用css选择器无法提取到任何内容,试了几次都没成功 之后换xpath选择器成功提取出内容。个人找了多次未发现有处理类似问题的。下面是自己的解决办法。方法一》 我要用的含空格的类 position-label clearfix 完整提取规则:response.css(".position-label clearfix .l...原创 2018-08-12 17:23:59 · 4992 阅读 · 0 评论 -
scrapy爬取在线文章
原创 2018-07-06 14:01:17 · 270 阅读 · 0 评论 -
虚拟环境virtualenvwrapper的安装与使用以及为虚拟环境配置不同的python版本
在使用python 进行环境隔离能够保证开发依赖不同版本环境的项目,而不受影响。 虚拟环境工具virtualenv相当好用,之前经常使用该工具,最近发现一个更加好用的工具virtualenvwrapper,它是基于virtualenv的扩展。 命令行下 pip install virtualenvwrapper 建议采用豆瓣源进行安装会快很多 ...原创 2018-07-05 17:00:58 · 314 阅读 · 0 评论 -
scarpy--使用pipeline模块 同步和异步写数据库
1.同步爬取存储数据:pipeline用于专门处理要抓取的域。scrapy可以通过pipeline模块来保存数据。在pipeline.py中已经默认创建了一个pipeline类,创建一个新的pipeline类用于处理数据,并将数据保存到MySQL。pipeline 类会在 process_item 方法中处理数据,然后在结束时调用 close_spider 方法,因此我们 需要自定义这两个方法做相...原创 2018-07-05 12:36:16 · 1460 阅读 · 0 评论 -
解决scrapy连接数据库存储数据问题-----_mysql_exceptions.OperationalError: (2002, "Can't connect to local MySQL ser
在写scrapy的存储数据pipeline时,使用MySQLdb连接mysql数据库出了问题。连接语句:def __init__(self): self.conn = MySQLdb.connect(host="localhost", user="root", password="123456", db="article_spider", charset="utf8", ...原创 2018-07-05 10:56:32 · 1321 阅读 · 0 评论 -
scrapy爬取招聘网站数据总结
遇到的问题:测试阶段 (提取规则):scrapy shell 网址一直 REDIRECT <302> 被重定向 需要提供 cookies 由于在terminal一直设置错误,也就没折腾。后来在pycharm设置了cookies 如下:custom_settings = {"COOKIES_ENABLED": False,"DOWNLOAD_DELAY": 1,'...原创 2018-08-16 12:25:23 · 2543 阅读 · 0 评论