爬虫
Asher117
大家好,我是Asher,热衷于研究数据分析、数据挖掘以及网络爬虫等。大家有问题的话,欢迎加我微信,一起学习-分享-成长,MyWechat:liu2536036458
展开
-
为了学爬虫,我用三步爬取了大佬崔庆才爬虫相关文章,并保持为pdf学习
为了学习网络爬虫,我爬取了网络爬虫届大佬崔庆才的所有Python博客,并转换成了pdf,以便后续学习。1.代码思路获取所有博客的URL获得每篇博客的html内容,并转化为pdf文件合并pdf文件2.获取所有博客URL首先,通过崔老师的博客网站可知,目前Python博客内容包含7页,如下图通过这些博客分类页面,很方面就能获得每篇博客的网址,代码如下:#获取所有URLdef get_url(): url_list = [] for i in range(7,0,-1):原创 2020-11-22 17:05:18 · 605 阅读 · 2 评论 -
【Python】Selenium爬虫提取文本内容
如下图:想使用selenium获取页面上的文字内容,非常容易,代码如下:driver = webdriver.Firefox()driver.get(url)driver.find_element_by_xpath('路径').text原创 2020-06-12 10:14:29 · 5884 阅读 · 0 评论 -
【Python】Selenium爬虫提取标签属性值
之前分享了一个selenium提取属性值得方法:老方法,这个方法很实用,可以将selenium获取得网页源码转成常用得BeautifulSoup格式,然后进行解析,今天用的时候看到一个更直接得方法,直接采用selenium自带得方法获取属性值,分享给大家:driver = webdriver.Firefox()driver.get(url)driver.find_element_by_xpath('路径').get_attribute('href')通过以上一行简单得代码就可以获取属性值了..原创 2020-06-12 10:00:02 · 4059 阅读 · 0 评论 -
selenium.common.exceptions.WebDriverException: Message: 'geckodriver' executable needs to be in PATH
使用Python的selenium包打开浏览器时,报这个错误,说明缺少geckodriver插件。解决方法只需1.下载geckodriver.exe插件,2.安装到对应浏览器的目录下面(eg:D:\软件\Mozilla Firefox),3.将文件路径添加到环境变量Path即可(eg:D:\软件\Mozilla Firefox).geckodriver.exe插件下载地址:https:...原创 2019-01-31 11:04:09 · 463 阅读 · 0 评论 -
【Python】爬取**查公司电话以及地址信息
背景:其实两年前就爬了天眼查的很多信息,包括电话、地址等基本信息之外,还有公司的股东、专利以及对外投资等信息,但是当时的电脑没备份,代码都没了。这次山东的某个教育机构有偿找我帮爬天眼查公司电话以及地址信息,所以就重新爬了一下天眼查。准备:selenium+PhatomJS或者selenium+Firefox我这里直接用的后者selenium+Firefox思路爬取这部分信息的话,代码其实不难...原创 2019-11-28 16:33:49 · 13368 阅读 · 19 评论 -
【Python】Selenium爬虫提取属性值(href为例)
提取属性值之前使用爬虫解析HTML一直使用的是bs4里面的BeautifulSoup,最近因为模拟登陆要使用Selenium,所以就直接使用Selenium解析HTML。解析HTML很重要的一步就是提取标签元素的属性。这里展示一下使用提取hrtf的值:div = driver.find_element_by_css_selector('#CSS_Selector')href = div.g...原创 2018-11-19 09:52:39 · 11289 阅读 · 1 评论 -
[Python爬虫]模拟登陆**查网站
这是一篇使用Python模拟登陆天眼查网站的详细介绍,天眼查网站上有许多的企业信息,因此抓取天眼查数据十分重要,本文使用selenium模拟登陆天眼查网站。其实我之前就想写这个python模拟登录网站的,因为之前爬虫用的时候感觉还挺好用的,后来想学一下R爬虫再来用R写的,结果最近的爬虫还是用的python,so,给大家用python讲解咯。今天给大家讲的是模拟登录“天眼查”这个网站,网站登录页...原创 2019-11-28 16:34:34 · 8385 阅读 · 15 评论 -
【Python爬虫】爬取企业专利信息
本来是个美好的周末的,但是周五晚上领导给了一个公司名称的Excel,让把这些公司的专利信息爬取下来。本文记录了爬取企业专利信息的心酸过程。码字不易,喜欢请点赞!!!一、找寻目标网页在接到这个任务之后,我的内心是拒绝的。但是又不能不干。因此首先我需要先找到有公司专利信息的地方。在一番查找和问了问朋友之后,我知道中国专利网、国家知识产权网、Incopat、天眼查、企查查这些网站上面都有企业的专利...原创 2019-08-02 11:00:41 · 21711 阅读 · 29 评论