爬虫入坑
残烛0一0照月
这个作者很懒,什么都没留下…
展开
-
入坑爬虫之常见问题及解决方案
从学习爬虫开始,到学习爬虫的代码,再到自己写爬虫程序,遇到了各式各样的问题,每每都需要百度去搜索一个合适的解决方案,耗时耗力。所以把一些我遇到的问题和合适的解决方案记录下来。 1.爬取网页时,网页中文乱码乱码出现原因:源网页编码和爬取下来后的编码转换不一致。如源网页为gbk编码的字节流,而我们抓取下后程序直接使用utf-8进行编码并输出到存储文件中,这必然会引起乱码,即当...原创 2018-08-22 14:28:10 · 1956 阅读 · 0 评论 -
入坑爬虫之爬取王者荣耀官网英雄皮肤
利用requests和正则表达式爬取王者荣耀官网英雄皮肤,并结构化保存在文件夹中# -*- coding: utf-8 -*-from __future__ import unicode_literals"""Created on Mon Aug 20 10:07:46 2018@author: Python"""import requestsimport reimpor...原创 2018-08-22 14:41:42 · 3714 阅读 · 3 评论 -
入坑爬虫之网页解析库pyquery的方法和使用
最近使用爬虫时,有一段数据中混入了一些无用广告的信息,如下:html='''<div class="list"><ul><li><a href="" title="" target="_blank"><img src="" alt="">转载 2018-08-22 15:20:36 · 852 阅读 · 0 评论