
Python
逆風的薔薇
这个作者很懒,什么都没留下…
-
转载 Python网络爬虫(Get、Post抓取方式)
简单的抓取网页import urllib.request url="http://google.cn/" response=urllib.request.urlopen(url) #返回文件对象page=response.read()直接将URL保存为本地文件import urllib.request url="http://www.xxxx.com/1.jpg"urllib2015-10-09 20:04:2415835
1
-
原创 Python2 爬虫(九) -- Scrapy & BeautifulSoup之再爬CSDN博文
序我的Python3爬虫(五)博文使用utllib基本函数以及正则表达式技术实现了爬取csdn全部博文信息的任务。链接:Python3 爬虫(五) -- 单线程爬取我的CSDN全部博文上一篇Python3 爬虫(八) -- BeautifulSoup之再次爬取CSDN博文,我们就利用BeautifulSoup4重新实现了一次爬取csdn博文的任务。那么,既然认识了Scrapy和2016-06-02 21:54:1117977
12
-
转载 Ubuntu15 安装Pycharm
一、目标实现在Linux下用pycharm调试工具/Python开发 Linux使用vi/vim工具写Python,缺点:调试不方便,无代码提示、跳转等诸多功能。Windows使用idle/pycharm/eclipse等,环境包安装麻烦。写好的代码往往也得迁移至Linux服务器环境。解决办法:直接在Linux环境下安装pycharm编译器。 附:a2016-06-02 20:05:402489
0
-
原创 Python3 爬虫(八) -- BeautifulSoup之再次爬取CSDN博文
序我的Python3爬虫(五)博文使用utllib基本函数以及正则表达式技术实现了爬取csdn全部博文信息的任务。链接:Python3 爬虫(五) -- 单线程爬取我的CSDN全部博文上一篇,我们学习了BeautifulSoup这样一个优秀的Python库,必须有效利用起来。那么我们就利用BeautifulSoup4重新实现一次爬取csdn博文的任务。由于我修改了博客配置,2016-06-01 17:48:1814920
0
-
原创 Python3 爬虫(七) -- 配置BeautifulSoup4+lxml+html5lib
序Beautiful Soup 是一个可以从HTML或XML文件中提取数据的Python库.它能够通过你喜欢的转换器实现惯用的文档导航,查找,修改文档的方式.Beautiful Soup会帮你节省数小时甚至数天的工作时间。Beautiful Soup支持Python标准库中的HTML解析器,还支持一些第三方的解析器,其中一个是 lxml 。另一个可供选择的解析器是纯Python2016-06-01 10:08:0720204
0
-
原创 Python2 爬虫(六) -- 初尝Scrapy框架
1、Scrapy简介Scrapy是一个为了爬取网站数据,提取结构性数据而编写的应用框架。 可以应用在包括数据挖掘,信息处理或存储历史数据等一系列的程序中。其最初是为了 页面抓取 (更确切来说, 网络抓取 )所设计的, 也可以应用在获取API所返回的数据(例如 Amazon Associates Web Services ) 或者通用的网络爬虫。Scrapy官网文档 -- 戳我2016-05-30 19:29:0214933
2
-
原创 Python3 爬虫(五) -- 单线程爬取我的CSDN全部博文
序本文我实现的是一个CSDN博文爬虫,将我的csdn博客http://blog.csdn.net/fly_yr/article/list/1 中的全部博文基本信息抓取下来,每一页保存到一个文件中。先来看一下我的博客页面:确定要提取的信息:发表日期是否原创标记博文标题博文链接浏览量评论量从上第二个图中可以看出,我的博文目前有20页共384条数据,我2016-05-30 10:11:419969
12
-
原创 Python3 爬虫(三) -- 爬取豆瓣首页图片
序前面已经完成了简单网页以及伪装浏览器的学习。下面,实现对豆瓣首页所有图片爬取程序,把图片保存到本地一个路径下。首先,豆瓣首页部分图片展示这只是截取的一部分。下面给出,整个爬虫程序。爬虫程序这个爬取图片的程序采用伪装浏览器的方式,只不过是加了处理图片的模块。'''批量下载豆瓣首页的图片采用伪装浏览器的方式爬取豆瓣网站首页的图片,保存到指定路径文件夹下'''2016-05-28 17:55:0417644
32
-
原创 Python3 爬虫(二) -- 伪装浏览器
伪装浏览器对于一些需要登录的网站,如果不是从浏览器发出的请求,则得不到响应。所以,我们需要将爬虫程序发出的请求伪装成浏览器正规军。具体实现:自定义网页请求报头。使用Fiddler查看请求和响应报头打开工具Fiddler,然后再浏览器访问“https://www.douban.com/”,在Fiddler左侧访问记录中,找到“200 HTTPS www.douban.com”这一2016-05-28 17:12:1431982
19
-
原创 Python3 爬虫(一)-- 简单网页抓取
序一直想好好学习一下Python爬虫,之前断断续续的把Python基础学了一下,悲剧的是学的没有忘的快。只能再次拿出来滤了一遍,趁热打铁,借鉴众多大神的爬虫案例,加入Python网络爬虫的学习大军~~~ Python 爬虫之前 在着手写爬虫之前,要先把其需要的知识线路理清楚。第一:了解相关Http协议知识HTTP是Hyper Text Transfer Protocol(超文本2016-05-28 16:28:0272273
34
-
转载 Python3 函数
Python3 函数函数是组织好的,可重复使用的,用来实现单一,或相关联功能的代码段。函数能提高应用的模块性,和代码的重复利用率。你已经知道Python提供了许多内建函数,比如print()。但你也可以自己创建函数,这被叫做用户自定义函数。定义一个函数你可以定义一个由自己想要功能的函数,以下是简单的规则:函数代码块以 def 关键词开头,后接函数标识符名称和圆括号2016-05-25 21:07:202585
0
-
原创 Python3 迭代器与生成器
Python3 迭代器与生成器迭代器迭代是Python最强大的功能之一,是访问集合元素的一种方式。。迭代器是一个可以记住遍历的位置的对象。迭代器对象从集合的第一个元素开始访问,直到所有的元素被访问完结束。迭代器只能往前不会后退。迭代器有两个基本的方法:iter() 和 next()。字符串,列表或元组对象都可用于创建迭代器:>>> list=[12016-05-25 20:53:002257
0
-
原创 求素数 -- Python实现
序用filter求素数计算素数的一个方法是埃氏筛法,它的算法理解起来非常简单:首先,列出从2开始的所有自然数,构造一个序列:2, 3, 4, 5, 6, 7, 8, 9, 10, 11, 12, 13, 14, 15, 16, 17, 18, 19, 20, ...取序列的第一个数2,它一定是素数,然后用2把序列的2的倍数筛掉:3,2016-04-11 10:37:471478
1
-
原创 Python3 爬虫(四) -- 登录知乎
序有些网站需要用户登录,利用python实现知乎网站的模拟登录。用Cookies记录登录信息, 然后就可以抓取登录之后才能看到的信息。知乎登录首页第一、使用Fiddler观察“登录”浏览器行为打开工具Fiddler,在浏览器中访问https://www.zhihu.com,Fiddler 中就能看到捕捉到的所有连接信息。在左侧选择登录的那一条: 观察右侧,打开 Inspactors 透视图, 上方2016-05-29 13:39:0114690
18