自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(6)
  • 收藏
  • 关注

原创 (Linux ) WebDriverException: Message: 'chromedriver' executable needs to be in PATH. Please see...

使用 selenium 爬虫,遇到的一个webdriver的问题.WebDriverException: Message: 'chromedriver' executable needs to be in PATH. Please see... 查阅了很多资料,发现是就是路径的问题.从官网下载 和你浏览器版本对应的webdriver版本.下载地址: https://site...

2018-09-22 13:33:13 2410 1

原创 使用os获取当前文件绝对路径! 备忘

写爬虫,存文件时遇到了路径和命名问题,查阅资料,写在这里以备忘! import os,sys'''os.getcwd()Return a string representing the current working directory.Availability: Unix, Windows.os.getcwd返回的是当前的工作路径,就是你在什么地方执行的python命令,...

2018-09-22 11:42:07 9847

原创 自己整理的一些爬虫知识. 备忘!

很多文字内容都是通过自己的理解写的,如果有理解不到位的地方,还望指正.selenium部分是通过看资料整理的,很多东西不是很懂,有待进一步学习. 一. requests 模块    基于urllib的模块 , 用法比urllib简单    1. requests的方法        requests.get(url,params=None)          用get方法获取请...

2018-09-14 14:01:18 208

原创 (爬虫)采用BeautifulSoup和正则爬取今日头条图集.详细!

用beautifulsoup提取文本信息,正则匹配关键的图片信息.最后存入数据库mongodb.完成后的感想: 其实分析网页是最关键的一个环节.ajax分析,json处理等等,还是需要多点练习. 下面是代码:'''步骤:1. 首先抓取索引页的内容,利用requests请求目标站点,获得索引页html代码,返回结果.2. 解析返回结果,得到详情页(也就是每一个图集的u...

2018-09-14 13:36:47 824

原创 (爬虫)通过正则和多进程的方式,简单爬取猫眼Top100电影信息

由于猫眼有简单的反爬,这里可以采用设置请求头header的方式防一下反爬.# UserAgent是请求头中的一部分内容,简单的防反爬方法def UserAgent(): list = ['Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/39.0.2171.95 S...

2018-09-12 14:47:14 339

原创 Linux下PDF转图片格式

最近有需要将PDF文件转成图片格式来使用,自学了一下,在这里记录备忘。用到的工具就是ImageMagick linux下的安装命令:(我的系统版本是Fedora28) # sudo dnf install ImageMagick安装好之后通过查看版本号 convert -version 检查一下是否成功 [###@localhost]$ convert -versi...

2018-08-23 13:39:59 6210

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除