Python爬虫
Thorrrrrrrrrr
这个作者很懒,什么都没留下…
展开
-
[python 爬虫]Python爬虫抓取马蜂窝游记的照片 基于xpath
之前都只是使用urllib和urllib2这两个类库,接下来要发掘更多好用的工具了,比如这个xpath,对于分析HTML的网页结构实在是太方便。http://blog.csdn.net/freeking101/article/details/52614291http://www.w3school.com.cn/xpath/index.asp大家可以参考一下这个网址学习一下xpath的使...原创 2017-03-16 19:51:20 · 4460 阅读 · 5 评论 -
[python 爬虫]微信公众号权律二表情和壁纸爬虫
搜狗搜索引擎可以搜索到微信的公众号,许久没有爬虫了,最近买了崔大神的《python网络爬虫开发实战》,感觉又回到了一年前初学爬虫时满怀激情的时代。下面小试牛刀,利用一些基本的库 requests-html,xpath,request以及正则表达式来抓一些表情和壁纸。先来看看效果是怎么样吧源码奉上,其实改一改就能爬取其他内容。import osimport urllib....原创 2018-07-05 14:54:50 · 1092 阅读 · 1 评论 -
python2代码转换python3遇到的问题
1.SyntaxError: Non-ASCII character '\xe5' in file【现象】在编写Python时,当使用中文输出或注释时运行脚本,会提示错误信息:SyntaxError: Non-ASCII character '\xe5' in file *******【原因】python的默认编码文件是用的ASCII码,而你的python文件中使用了中文等非英语字符。【解决办法】...原创 2018-07-10 13:48:11 · 1036 阅读 · 0 评论 -
[python 爬虫]抓取猫眼电影排行top100
def get_one_page(url): headers = {'user-agent': 'Mozilla/5.0 (Windows NT 6.1; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/66.0.3359.181 Safari/537.36'} response = requests.get...原创 2018-07-09 23:57:15 · 646 阅读 · 0 评论 -
[python 爬虫]必应壁纸爬取
import osimport reimport urllib.requestimport requestsdef get_one_page(url): headers = {'user-agent': 'Mozilla/5.0 (Windows NT 6.1; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome...原创 2018-07-09 23:55:10 · 1541 阅读 · 2 评论 -
python3.6安装pyspider出现的问题(pycurl安装失败)和解决方案
使用pip install pyspider 发现安装失败图片一于是上网查了一下原因是因为安装pyspider之前需要安装lxml 和 pycurl ,但是在安装pycurl的过程中遇到了同样的错误解决方案是安装wheel 和到 http://www.lfd.uci.edu/~gohlke/pythonlibs/#pycurl 这个网址下载相应版本的pycurl ,如果是64位的就用原创 2017-04-06 19:08:55 · 8325 阅读 · 2 评论 -
[python 爬虫]用selenium抓取耐卡影音所有欧美剧集的种子
import osimport reimport requestsimport timefrom selenium import commonimport seleniumfrom selenium import webdriverdef get_one_page_bywebdriver(url): try: response = requests.ge...原创 2017-04-05 17:13:52 · 2958 阅读 · 0 评论 -
[python 爬虫]用selenium抓取500px上的图片
本来打算写一个可以查找任何关键字的图片抓取,但是我发现有一些问题,可能是我网速问题,也可能是代码的问题,代码如下from selenium import webdriverfrom selenium.webdriver.common.keys import Keysimport timeimport urllib.requestprint("请输入你的500px账号")usern...原创 2017-03-26 22:58:17 · 1196 阅读 · 0 评论 -
[python 爬虫]使用selenium+BeautifulSoup+正则表达式下载公众号我要whatyouneed文章里的音乐
其实我本来是想着只用BeautifulSoup去实现的,在获取到音乐的url我在想音乐的文件名很重要,不然下载下来觉得动听但是却要听歌识曲的话就毫无意义了。我上网查了一下搜狗可以查某个公众号的文章,但是对爬虫有限制而且只能查看往期的十篇,在知乎上的回答发现了传送门这个网站。http://chuansong.me/如果对某个公众号的内容感兴趣又想在pc端查看的话,这是个很好的网站。所以我下一...原创 2017-04-12 18:42:18 · 809 阅读 · 0 评论 -
[python 爬虫]Python爬虫抓取虎扑论坛帖子图片
自从可以实现抓取文字了,自然要尝试更多的类型,比如图片。我是一个有逛虎扑论坛习惯的人,经常会发现有些帖子的图片挺好看的想保存下来,但是如果人为保存的话,一个帖子至少都有二三十张,这将是一个庞大的工作量,所以如果可以通过爬虫实现那该多好。我本来打算写一个脚本像博客文章一样可以自动爬墙某个人发过的所有帖子,但是我后来发现,其实个人发的帖子有很多不同的属性,即使是kaka和剑魔独孤求败这样在jrs心...原创 2017-03-16 13:15:29 · 3013 阅读 · 0 评论 -
[python 爬虫]第一个Python爬虫,爬取某个新浪博客所有文章并保存为doc文档
最近开始学习Python的爬虫,本来想着从基本的各种语法开始学习的但是在逛知乎的过程中发现了一个帖子是就是关于如何入门Python爬虫,里面有一个回答,https://www.zhihu.com/question/20899988/answer/24923424 这里面说的就是““入门”是良好的动机,但是可能作用缓慢。如果你手里或者脑子里有一个项目,那么实践起来你会被目标驱动,而不会像学习模块一样...原创 2017-03-16 12:22:52 · 10593 阅读 · 2 评论 -
安装selenium使用webdriver出现的问题
参考了好多网站的安装教程还有查找到底什么原因无法运行。首先源代码十分简单,但是要准备的步骤可多了。from selenium import webdriverdriver = webdriver.Chrome()driver.get("http://www.baidu.com")只有这么三行而已但是却不停地报错。我一开始完全不知道什么是chromedriver,但是慢慢看了一些文章后发现原创 2017-03-24 09:45:19 · 24295 阅读 · 10 评论 -
[python 爬虫]使用matplotlib.pyplot + xlrd + pandas使租房价格面积数据关系可视化
最近本想接触pandas,然而我发现自己在数据可视化方面能力的欠缺的,所以我要恶补这方面的知识才能继续学习更深入的数据分析知识。而matplotlib是个强大的工具,大家可以参考http://matplotlib.org 这个网站学习,又或者是这个https://www.pythonprogramming.net里面是一个有才华的pyhton程序员提供了非常多免费的学习视频,而且涉及面非常广泛...原创 2017-04-09 17:00:15 · 827 阅读 · 0 评论 -
[python 爬虫]使用selenium和phantomjs抓取淘宝衣服并存入mongodb
import refrom selenium import webdriverfrom selenium.common.exceptions import TimeoutExceptionfrom selenium.webdriver.common.by import Byfrom selenium.webdriver.support.ui import WebDriverWaitfr...原创 2017-04-07 15:58:36 · 516 阅读 · 0 评论 -
[python 爬虫]用python+selenium实现一步到达学者网的作业
正常情况下进入学者网作业界面的步骤:1浏览器2点击学者网(已收藏)3输入账号4输入密码5点击登录6点击学习课程7找到课程点击课程名8跳转页面至课程封面,点击进入课程9点击课程作业10查看作业,交作业这么繁琐的流程,几乎超过了7±2的法则了,即使可以用登录管家把账号密码保存下来,也只是省略了输入密码账号的过程(其实一般登录管家不只是记录一个网站的登录,所以...原创 2017-03-25 10:54:21 · 1794 阅读 · 0 评论