爬虫
中小学生
这个作者很懒,什么都没留下…
展开
-
爬虫-------爬取豆瓣中关于王祖贤的电影海报和标题
# -*-coding:utf-8-*- __author__ = 'fankai' """ https://time.geekbang.org/column/article/76001 从上面的网址下载王祖贤的电影海报 https://movie.douban.com/subject_search?search_text=%E7%8E%8B%E7%A5%96%E8%B4%A4&cat=...原创 2019-01-07 21:20:57 · 552 阅读 · 0 评论 -
Scrapy模拟登陆豆瓣抓取数据
由于豆瓣网站是反爬虫的,因此要破解反爬虫和模拟登录,还有需要破解验证码。 1创建项目 (在pycharm中创建scrapy爬虫工程即可) scrapy startproject douban 其中douban是我们的项目名称 2创建爬虫文件 进入到douban 然后创建爬虫文件 scrapy genspider dou douban.com 或者 scrapy genspide...原创 2019-07-05 20:57:35 · 1437 阅读 · 2 评论 -
6.3-Ajax结果提取
0什么是Ajax Ajax,全称为Asynchronous JavaScript and XML,即异步的JavaScript和XML,论坛里面也有的说是js的高级应用。它不是一门编程语言,而是利用JavaScript在保证页面不被刷新、页面链接不改变的情况下与服务器交换数据并更新部分网页的技术。 对于传统的网页,如果想更新其内容,那么必须要刷新整个页面,但有了Ajax,便可以在页面不被全部刷...转载 2019-08-03 16:51:16 · 227 阅读 · 0 评论 -
(好久没写爬虫了,好多东西都忘了)使用scrapy爬取京东网上图书
0分析: 要爬取的网址:https://book.jd.com/,本来想要爬取图书分类下面的特色分类,文学综合馆,童书馆,一直到文化/周边/娱乐/等好像是17/18个分类。随着工作的进行,发现原来的某三十天学会python爬虫的教程有些失效了(尴尬的一批),网址有了很大的改变,最后我们决定暂时爬取一个文学综合馆(我是喜欢文学的,哈哈)。 1继续分析: 点击进入...原创 2019-07-31 22:40:51 · 646 阅读 · 0 评论 -
selenium 爬取京东动态加载数据(手机为例子)
使用scrapy爬取京东网上图书 里面涉及的图书目录涉及到使用JavaScript动态渲染的页面 类别在源码中找不到,因为它采用了js加载 的 对于使用js加载的数据我们可以采用,前面在((好久没写爬虫了,好多东西都忘了)使用scrapy爬取京东网上图书)提到的抓包分析,也可以使用模拟浏览器的方法进行提取图书类别。模拟浏览器我们采用的是selenium 下面直接使用 selen...原创 2019-08-05 20:30:21 · 799 阅读 · 0 评论