数据采集
数据采集
灰哥数据智能
这个作者很懒,什么都没留下…
展开
-
PowerBI也能做爬虫:爬取豆瓣Top电影排行榜
对于简单的页面数据爬取,其实使用PowerBI就可以可视化直接实现了,不需要另外写爬虫程序。本文以爬取豆瓣Top250电影排行榜示例说明下操作的基本过程。一、分析URL规律及网页结构打开豆瓣电影Top 250 页面:https://movie.douban.com/top250观察每页有25部电影,总共10页观察第二页开始,URL的变化第二页https://movie.douban.com/top250?start=25&filter=第三页https://movie.d原创 2020-07-31 00:51:16 · 9583 阅读 · 2 评论 -
Selenium快速入门之3:10大常用模块方法梳理
一、webdriver模块在selenium中,无论是Firefox Driver、Chrome Driver,还是IE Drive,都继承至selenium\webdriver\remote\webdriver.py中的WebDriver 类。WebDriver类中的常用方法如下。(1)全局操作create_web_element 创建一个html元素close 关闭当前浏览器窗口forward/back 浏览器历史浏览上一次/下一次操作get 在当前浏览器会话页打开指定的...原创 2020-07-10 00:04:25 · 1012 阅读 · 0 评论 -
Selenium快速入门之2:ActionChains所有行为动作、常用JS操作
一、ActionChains所有行为行为操作selenium中的ActionChains使用链式模型,即可以实现简单的交互行为,例如鼠标移动,鼠标点击事件,键盘输入,以及内容菜单交互。同时也可以完成复杂的类似于鼠标悬停和拖拽等动作。当在ActionChains对象上调用行为方法时,这些行为会存储在ActionChains对象的一个队列里。调用perform()时,这些动作就以他们队列的顺序来触发。例如:ActionChains(driver).key_down(Keys.CONTROL).send原创 2020-07-09 13:22:08 · 1369 阅读 · 0 评论 -
Selenium快速入门之1:最常使用方法整理
Selenium最早是为了测试浏览器、网页的,但目前也被广泛应用于网络爬虫。本文整理Selenium最常见的使用方法。一、创建webdriver,打开特定页面#打开浏览器、百度网站driver = webdriver.Chrome()driver.get("https://baidu.com")二、设置浏览器大小、设置页面大小driver = webdriver.Chrome()driver.get("https://baidu.com")三、页面前进/后退、刷新..原创 2020-06-30 23:51:26 · 566 阅读 · 0 评论 -
解析html:Xpath快速了解使用
XPath是XML路径语言,它是用来确定xml文档中所部分位置的语言。xml文档(爬虫抓取下来的html也属于xml)是由一系列节点构成的数,例如:<html> <body> <div > <p>Hello world<p> <a href="/home">Click here</a> </div> </body></html>一、xml文档的节点类原创 2020-06-23 23:42:45 · 13880 阅读 · 1 评论 -
解析html:CSS Selector快速了解使用
CSS即层叠样式表,其选择器是一种用来确定HTML文档中某部分位置的语言。html文档是由一系列节点构成的数,例如:<html> <body> <div > <p>Hello world<p> <a href="/home">Click here</a> </div> </body></html>一、html文档的节点类型html文档的节点类型常原创 2020-06-28 20:29:13 · 1409 阅读 · 0 评论 -
Python的requests库基础介绍2:常用方法整理,URL参数、各种POST、响应、异常、cookies等
本文总结了requests库基础的常见用法,包括URL参数、各种POST、响应、异常、cookies等。一、传递URL参数为 URL 的查询字符串(query string)传递数据。urlparams = {'key1': 'value1', 'key2': 'value2'}r = requests.get("http://httpbin.org/get", params=urlparams)r.status_coder.request.url二、定制请求头为请求添加原创 2020-05-29 00:13:24 · 512 阅读 · 0 评论 -
Python的requests库基础介绍1:安装、涵盖所有功能的七大方法
requests库是一个基于python的http库,相比于python标准库中提供了urllib、httplib等,requests库进行了更高级的封装,使得进行网络数据爬取时更加简单。一、requests库安装windows系统,只需要在命令行输入命令 pip install requests 即可安装linux系统下,只需要输入命令 sudo pip install requests 即可安装二、requests库的最主要的七个方法requests 的所有功能都可以通过以下原创 2020-05-23 00:17:25 · 720 阅读 · 0 评论 -
做自媒体数据分析的一些工具
官方指数:百度指数:掌握某些关键词的百度搜索动向http://index.baidu.com/v2/index.html#/微博指数:掌握微博热点https://data.weibo.com/index微信指数:掌握某些关键词的微信变动在微信搜索栏,搜索微信指数,进入小程序微信、微博数据分析平台:数说风云:实时、维度全面的微博排行与监控工具。微博、微信运营监控,自媒体全行业分类排行榜http:/social.datastory.com.cn友盟:国内领先的第三方全域数据智能服原创 2020-05-20 23:48:49 · 1681 阅读 · 1 评论