2019年11月_雍飞宇

11月 10月 05月 04月 03月 02月 01月

原创 Python3爬虫项目集：爬取知乎十几万张小姐姐美图

文章目录前言注意点代码实例前言github：https://github.com/pasca520/Python3SpiderSet知乎上有很多钓鱼贴，也成功的钓上了很多鱼，你懂的~~~这里通过 python 爬了一些图片，总共大概有十几万张，仅供练习使用：示例python 库爬取模块request解析模块re存储类型存储图片到本地&七牛云存...

2019-11-06 23:29:57 7516

原创 python 生成器yield全解，小白都能懂

文章目录yield释义yield from使用 yield from使用 yieldyield释义写一个爬虫，获取HTML（IO很耗时），然后再对HTML对行解析取得我们感兴趣的数据。利用 for 循环翻页时我们希望将每个页面的HTML先送去解析内存下载或者保存。关键字示例yield返回一个生成器对象，创建一个容器，例如<generator object par...

2019-11-06 14:09:40 164

原创爬取知乎图片出现json.decoder.JSONDecodeError: Expecting value: line 1 column 1 (char 0)

问题Traceback (most recent call last): File "/Users/pasca/Desktop/github/test_spider/zhihu_img_spider.py", line 55, in <module> data = get_page(url) File "/Users/pasca/Desktop/github/test...

2019-11-05 16:46:45 1065 2

原创 Python3爬虫项目集：猫眼电影排行榜top100

文章目录一、概要二、解析三、代码示例Github 地址：https://github.com/pasca520/Python3SpiderSet一、概要示例python 库爬取模块request解析模块xpath存储类型文件（txt）二、解析根据图示复制 xpath（这也是我为何说 xpath 简单的原因）三、代码示例import requ...

2019-11-01 23:52:05 335

原创 Python3爬虫项目集：豆瓣电影排行榜top250

文章目录前言爬虫概要解析代码示例数据存储Github地址：https://github.com/pasca520/Python3SpiderSet前言关于整理日常练习的一些爬虫小练习，可用作学习使用。爬取项目以学习为主，尽可能使用更多的模块进行练习，而不是最优解。爬虫概要示例python 库爬取模块request解析模块BeautifulSoup存储...

2019-11-01 23:44:50 824

原创 Python 之Beautiful Soup入门文档

官方文档：https://beautifulsoup.readthedocs.io/zh_CN/v4.4.0/一、安装pip install beautifulsoup4二、基本使用导入并将 html 转成 unicodefrom bs4 import BeautifulSoupsoup = BeautifulSoup(open("index.html"))soup = Beaut...

2019-11-01 16:45:04 317