爬虫
文章平均质量分 63
Ting说
这个作者很懒,什么都没留下…
展开
-
python爬虫实战:利用pyquery爬取猫眼电影TOP100榜单内容-2
上次利用pyquery爬取猫眼电影TOP100榜单内容的爬虫代码中点击打开链接 包含1段自定义的create_file(文件存在判断及创建)函数,后来逐步学习python文件相关内容,发现这个属于重复造轮子功能。因为代码页面内容提取的循环体中的下面代码with open(file, 'a+', encoding='utf-8') as f: # 打开目标file文件即存在文件存在判断和创建功能;没...原创 2018-05-11 20:14:04 · 1311 阅读 · 0 评论 -
python爬虫实战:利用pyquery爬取猫眼电影TOP100榜单内容-1
上次使用beautifulsoup 爬取了猫眼电影TOP100,这次利用最近学习的pyquery再次实战了,感觉比bs4比较好用。下面分享代码如下,欢迎交流。from pyquery import PyQuery as pq import requests import os import time begin = time.clock() # 添加程序运行计时功能。 file_path ...原创 2018-05-05 23:47:21 · 1321 阅读 · 0 评论 -
python爬虫实战:利用beautiful soup爬取猫眼电影TOP100榜单内容-1
最近学习完了崔大神的第一个爬虫案例:抓取猫眼电影排行 点击打开链接但是他是用正则表达式完成的。作为编程小白,实在脑力不够去理解那些眼花缭乱的正则表达式。于是直接利用后面学习的beautiful soup实战一回,同时个人增加了些实战直接把代码分享下面,soup使用的不是特别熟练,有待优化。后续再用 pyquery 练练手。顺便搞下数据存储实战。以后有空再分享我的实战操作心得。import req...原创 2018-04-27 23:06:00 · 3044 阅读 · 0 评论 -
python爬虫实战:利用beautiful soup爬取猫眼电影TOP100榜单内容-2
最近学习了 html5 相关的网页标签的基础知识,这个对beautiful soup的应用理解有很多的帮助,于是重新整理了之前的代码。 有兴趣的可以参考。 import os import requests from bs4 import BeautifulSoup file_path = 'D:\python3.6\scrapy\maoyan' # 定义文件夹,方便后续check文件...原创 2018-08-14 22:12:16 · 1619 阅读 · 0 评论