爬虫
罗纳尔光
这个作者很懒,什么都没留下…
展开
-
根据关键词使用scrapy爬取今日头条网站新闻各类信息和内容页
在今日头条上输入关键词,爬取与关键词相关的新闻各类信息和内容页。今日头条爬取主要困难如下:(1)采用下拉翻滚动态加载新的新闻条目,即瀑布流;(2)内容详情页为动态页面,大部分网页源代码类似字典形式,一部分为带标签的结构化页面。本文采用两种方式爬取,都将爬取的数据写入到数据库中,主要爬虫代码在JinRiTouTiao.py中,小编在pipelines.py中使用了mysql数据库存储...原创 2018-07-21 18:37:47 · 7651 阅读 · 1 评论 -
设置selenium自动加载flash
设置浏览器自动加载爬虫from selenium import webdriverfrom selenium.webdriver.chrome.options import OptionschromeOpitons = Options()prefs= { "profile.managed_default_content_settings.images":1, "prof...转载 2018-08-10 16:09:20 · 4185 阅读 · 0 评论 -
python搜狗指数爬取
刚打开搜狗指数网站,小编以为搜狗指数网站数据获取方式和百度指数一样,都是获取指数所在位置进而利用图片识别技术获取数字。谁知,网上一百度其他网友的方法,发现事情就这么简单。在搜狗网页打开chrome检查元素,切到network。点击PC趋势,再点击整体趋势,即可获得页面的真正数据链接然后就可以解析json获取数据...原创 2018-08-10 17:31:58 · 1151 阅读 · 0 评论 -
百度指数、360指数爬虫python版:基于selenium+chrome和图像识别技术
一.前言:1、本博客主要介绍百度指数爬取,360指数获取类似;2、想要获取数据必须先登录百度指数,频繁登陆会导致要求输入验证码和手机验证码;3、百度指数的数值是采用html格式+加密二进制传输, 不能够通过直接获取节点进而获取数值。二.爬取思路:1、首先使用selenium+chrome模拟登陆百度账号,获取cookie;2、由于有时候需要验证码登陆,所以需要保存c...原创 2018-08-07 15:29:15 · 11845 阅读 · 1 评论 -
微信爬虫
爬取微信好友昵称、性别、地址、签名等信息,并利用签名制作云图#coding:utf-8"""微信爬虫,爬取微信好友昵称、性别、地址、签名等信息爬取流程:启动程序后用微信扫一下生成的二维码,会生成微信好友信息excel文件(data.csv) 以及从所有微信好友签名中提取出来的关键词词云要求:解释器:Anaconda3 安装库方法:cmd命令行中输入pi...原创 2018-10-10 16:51:58 · 2996 阅读 · 0 评论