spider
v(z_xiansheng88)
男,软件,北京
展开
-
爬虫1
懂网络的都知道,爬虫就是发请求,等到服务器相应,然后把相应的数据解析存入到本地。好简单哦! 捂脸。可是你是否听过,隔行如隔山,一个bug难死人。你知道怎么发请求嘛,你知道怎么提取数据吗,你又知道怎么写入本地或者数据库嘛。把自己这次做的项目的感想,在这里简单的说一下。让我做爬虫,哇,好难啊,没做过,不会,怎么没办,这些都不知道事。首先我们就是发请求,怎么发,Python中使用的包有http.clie...原创 2018-10-24 22:09:37 · 126 阅读 · 0 评论 -
爬虫2
现在爬虫1中的得到的数据粘贴到txt文件中,改为html文件后缀,得到的结果却不是我们看到的百度首页那样,难道我写错了,请不要怀疑,你得到的数据就是你请求的数据,数据是无辜的。只是你的url不能那样写。url = "http://www.renren.com/",这样你就能得到你想要的首页了,原因嘛,就是你的url地址找错喽,后面我们会说这件事的。人家辛辛苦苦的数据,凭啥你一个爬虫就给获取了,要想...原创 2018-10-24 22:36:23 · 145 阅读 · 0 评论 -
计算scrapy爬取时长
使用corestats.py替换D:\Python37\Lib\site-packages\scrapy\extensions下的文件链接:https://github.com/jackgithup/count_scrapy_time.git原创 2019-03-13 12:46:56 · 878 阅读 · 0 评论 -
解码错误。'gb2312' codec can't decode byte 0xf3 in position 307307: illegal multibyte sequence
一般在decode加errors="ignore"就可以了。例如:decode('gb2312',errors = 'ignore')原创 2019-04-23 17:27:46 · 6324 阅读 · 0 评论