python爬虫
雍飞宇
来者是客,欢迎关注
展开
-
python 生成器yield全解,小白都能懂
文章目录yield释义yield from使用 yield from使用 yieldyield释义写一个爬虫,获取HTML(IO很耗时),然后再对HTML对行解析取得我们感兴趣的数据。利用 for 循环翻页时我们希望将每个页面的HTML先送去解析内存下载或者保存。关键字示例yield返回一个生成器对象,创建一个容器,例如<generator object par...原创 2019-11-06 14:09:40 · 178 阅读 · 0 评论 -
爬取知乎图片出现json.decoder.JSONDecodeError: Expecting value: line 1 column 1 (char 0)
问题Traceback (most recent call last): File "/Users/pasca/Desktop/github/test_spider/zhihu_img_spider.py", line 55, in <module> data = get_page(url) File "/Users/pasca/Desktop/github/test...原创 2019-11-05 16:46:45 · 1086 阅读 · 2 评论 -
爬猫眼排行榜100的数据
仿写了程序,有时间改优化下import requestsfrom requests.exceptions import RequestExceptionimport reimport jsonimport osfrom multiprocessing import Pool#from fake_useragent import UserAgent# from selenium im...原创 2018-10-31 00:32:24 · 213 阅读 · 0 评论 -
pythonBUG锦集:json.decoder.JSONDecodeError: Expecting property name enclosed in double quo错误
写爬虫的时候遇到 json.decoder.JSONDecodeError: Expecting property name enclosed in double quotes: line 1 column 2 (char 1)错误!这里是把json对象转换为字典返回,所以单纯的用单引号,结果报错 return { 'title': title, ...原创 2018-11-06 23:48:05 · 50110 阅读 · 7 评论 -
爬虫笔记:response.text和response.content的区别
爬虫笔记:response.text和response.content的区别text 返回的是unicode 型的数据,一般是在网页的header中定义的编码形式>>> import requests>>> r = requests.get('https://github.com/timeline.json')>>> r.text# ...原创 2018-11-07 16:35:01 · 1312 阅读 · 0 评论 -
爬虫笔记:SyntaxError: invalid syntax错误
写爬虫的时候,遇到了SyntaxError: invalid syntax错误。 file_path = ('{0}/{1}.{2}'.format(os.getcwd(), md5(content).hexdigest(), 'jpg') if not os.path.exists(file_path): with open(file_path, 'wb') as ...原创 2018-11-07 17:52:30 · 6110 阅读 · 1 评论 -
爬虫笔记:unicode编码转中文
问题抓取IT桔子网时,返回的内容都是unicode编码格式。如下:随便截取一点翻译后。所以,如果想要正确的爬虫内容,还需要将unicode编码的内容转为中文。方法将爬虫到的response先编码urf-8后解码。print(response.text.encode('utf-8').decode('unicode_escape'))这个unicode_escape是什么?本...原创 2019-04-13 15:14:19 · 2148 阅读 · 0 评论