rs_hao-CSDN博客

原创 (Linux ) WebDriverException: Message: 'chromedriver' executable needs to be in PATH. Please see...

使用 selenium 爬虫,遇到的一个webdriver的问题.WebDriverException: Message: 'chromedriver' executable needs to be in PATH. Please see... 查阅了很多资料,发现是就是路径的问题.从官网下载和你浏览器版本对应的webdriver版本.下载地址: https://site...

2018-09-22 13:33:13 2410 1

原创使用os获取当前文件绝对路径! 备忘

写爬虫,存文件时遇到了路径和命名问题,查阅资料,写在这里以备忘! import os,sys'''os.getcwd()Return a string representing the current working directory.Availability: Unix, Windows.os.getcwd返回的是当前的工作路径，就是你在什么地方执行的python命令，...

2018-09-22 11:42:07 9847

原创自己整理的一些爬虫知识. 备忘!

很多文字内容都是通过自己的理解写的,如果有理解不到位的地方,还望指正.selenium部分是通过看资料整理的,很多东西不是很懂,有待进一步学习. 一. requests 模块基于urllib的模块 , 用法比urllib简单 1. requests的方法 requests.get(url,params=None) 用get方法获取请...

2018-09-14 14:01:18 208

原创 (爬虫)采用BeautifulSoup和正则爬取今日头条图集.详细!

用beautifulsoup提取文本信息,正则匹配关键的图片信息.最后存入数据库mongodb.完成后的感想: 其实分析网页是最关键的一个环节.ajax分析,json处理等等,还是需要多点练习. 下面是代码:'''步骤:1. 首先抓取索引页的内容,利用requests请求目标站点,获得索引页html代码,返回结果.2. 解析返回结果,得到详情页(也就是每一个图集的u...

2018-09-14 13:36:47 824

原创 (爬虫)通过正则和多进程的方式,简单爬取猫眼Top100电影信息

由于猫眼有简单的反爬,这里可以采用设置请求头header的方式防一下反爬.# UserAgent是请求头中的一部分内容,简单的防反爬方法def UserAgent(): list = ['Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/39.0.2171.95 S...

2018-09-12 14:47:14 339

原创 Linux下PDF转图片格式

最近有需要将PDF文件转成图片格式来使用，自学了一下，在这里记录备忘。用到的工具就是ImageMagick linux下的安装命令：（我的系统版本是Fedora28） # sudo dnf install ImageMagick安装好之后通过查看版本号 convert -version 检查一下是否成功 [###@localhost]$ convert -versi...

2018-08-23 13:39:59 6210

xiaohaozi

原创 (Linux ) WebDriverException: Message: 'chromedriver' executable needs to be in PATH. Please see...

原创使用os获取当前文件绝对路径! 备忘

原创自己整理的一些爬虫知识. 备忘!

原创 (爬虫)采用BeautifulSoup和正则爬取今日头条图集.详细!

原创 (爬虫)通过正则和多进程的方式,简单爬取猫眼Top100电影信息

原创 Linux下PDF转图片格式

空空如也

空空如也

原创 (Linux ) WebDriverException: Message: 'chromedriver' executable needs to be in PATH. Please see...

原创 使用os获取当前文件绝对路径! 备忘

原创 自己整理的一些爬虫知识. 备忘!

原创 (爬虫)采用BeautifulSoup和正则爬取今日头条图集.详细!

原创 (爬虫)通过正则和多进程的方式,简单爬取猫眼Top100电影信息

原创 Linux下PDF转图片格式

空空如也

空空如也

原创使用os获取当前文件绝对路径! 备忘

原创自己整理的一些爬虫知识. 备忘!