- 博客(6)
- 收藏
- 关注
原创 (Linux ) WebDriverException: Message: 'chromedriver' executable needs to be in PATH. Please see...
使用 selenium 爬虫,遇到的一个webdriver的问题.WebDriverException: Message: 'chromedriver' executable needs to be in PATH. Please see... 查阅了很多资料,发现是就是路径的问题.从官网下载 和你浏览器版本对应的webdriver版本.下载地址: https://site...
2018-09-22 13:33:13 2410 1
原创 使用os获取当前文件绝对路径! 备忘
写爬虫,存文件时遇到了路径和命名问题,查阅资料,写在这里以备忘! import os,sys'''os.getcwd()Return a string representing the current working directory.Availability: Unix, Windows.os.getcwd返回的是当前的工作路径,就是你在什么地方执行的python命令,...
2018-09-22 11:42:07 9847
原创 自己整理的一些爬虫知识. 备忘!
很多文字内容都是通过自己的理解写的,如果有理解不到位的地方,还望指正.selenium部分是通过看资料整理的,很多东西不是很懂,有待进一步学习. 一. requests 模块 基于urllib的模块 , 用法比urllib简单 1. requests的方法 requests.get(url,params=None) 用get方法获取请...
2018-09-14 14:01:18 208
原创 (爬虫)采用BeautifulSoup和正则爬取今日头条图集.详细!
用beautifulsoup提取文本信息,正则匹配关键的图片信息.最后存入数据库mongodb.完成后的感想: 其实分析网页是最关键的一个环节.ajax分析,json处理等等,还是需要多点练习. 下面是代码:'''步骤:1. 首先抓取索引页的内容,利用requests请求目标站点,获得索引页html代码,返回结果.2. 解析返回结果,得到详情页(也就是每一个图集的u...
2018-09-14 13:36:47 824
原创 (爬虫)通过正则和多进程的方式,简单爬取猫眼Top100电影信息
由于猫眼有简单的反爬,这里可以采用设置请求头header的方式防一下反爬.# UserAgent是请求头中的一部分内容,简单的防反爬方法def UserAgent(): list = ['Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/39.0.2171.95 S...
2018-09-12 14:47:14 339
原创 Linux下PDF转图片格式
最近有需要将PDF文件转成图片格式来使用,自学了一下,在这里记录备忘。用到的工具就是ImageMagick linux下的安装命令:(我的系统版本是Fedora28) # sudo dnf install ImageMagick安装好之后通过查看版本号 convert -version 检查一下是否成功 [###@localhost]$ convert -versi...
2018-08-23 13:39:59 6210
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人