- 博客(10)
- 资源 (35)
- 收藏
- 关注
原创 linux创建守护进程
一、概述 linux开启进程都是与终端绑定的,终端一关,进程也关,如果想独立不受干扰,必须将此进程变为守护进程(在后台运行,不以终端方式与用户交互)。守护进程能够突破这种限制,它从被执行开始运转,直到整个系统关闭时才退出。如果想让某个进程不因为用户或终端或其他地变化而受到影响,那么就必须把这个进程变成一个守护进程。 二、守护进程特性 守护进程最重要的
2014-10-12 12:27:40 2475
原创 打包python文件为exe文件(PyInstaller工具使用方法)
最近做的新浪微博爬虫程序,打算打包成.exe软件以方便使用,网上找到一个很好的打包工具pyinstaller,这里记录一下打包的方法。一、下载pyinstaller我使用的版本为PyInstaller-2.1,支持python版本2.3-2.7,点击这里下载。二、安装pyinstaller下载完成后,解压即可。我的解压目录为D:\Python27\PyInstaller-2
2014-10-03 23:46:33 10615 1
原创 【网络爬虫】【python】网络爬虫(五):scrapy爬虫初探——爬取网页及选择器
在上一篇文章的末尾,我们创建了一个scrapy框架的爬虫项目test,现在来运行下一个简单的爬虫,看看scrapy爬取的过程是怎样的。一、爬虫类编写(spider.py)vdsv
2014-10-03 09:57:01 3298
原创 【网络爬虫】【python】网络爬虫(四):scrapy爬虫框架(架构、win/linux安装、文件结构)
scrapy框架的学习,目前个人觉得比较详尽的资料主要有两个:1.官方教程文档、scrapy的github wiki;2.一个很好的scrapy中文文档:http://scrapy-chs.readthedocs.org/zh_CN/0.24/index.html; 剩下的就是网上其他的一些demo。 一、scrapy框架结构 还是先上个图吧,这
2014-10-02 23:37:39 4087
原创 【网络爬虫】【python】网络爬虫(三):模拟登录——伪装浏览器登录爬取过程
一、关于抓包分析和debug Log信息 模拟登录访问需要设置request header信息,,而python抓包可以直接使用urllib2把debug Log打开,数据包的内容可以打印出来,这样都可以不用抓包了,直接可以看到request header里的内容。
2014-10-02 23:16:45 10137 2
原创 【网络爬虫】【python】网络爬虫(二):网易微博爬虫软件开发实例(附软件源码)
对于urllib2的学习,这里先推荐一个教程《IronPython In Action》,上面有很多简明例子,并且也有很详尽的原理解释:http://www.voidspace.org.uk/python/articles/urllib2.shtml 最基本的爬虫,主要就是两个函数的使用urllib2.urlopen()和re.compile()。一、网页抓取简单例子
2014-10-02 23:03:41 3528
原创 【网络爬虫】【python】网络爬虫(一):python爬虫概述
python爬虫的实现方式:1.简单点的urllib2+regex,足够了,可以实现最基本的网页下载功能。实现思路就是前面java版爬虫差不多,把网页拉回来,再正则regex解析信息……总结起来,两个函数:urllibw.urlopen()和re.compile()。其实对于正则解析html网页,python同样有和jsoup类似的工具包——BeautifulSoup,用好了同样比正则省事多了
2014-10-02 00:23:33 2998
原创 【网络爬虫】【java】微博爬虫(五):防止爬虫被墙的几个技巧(总结篇)
爬虫的目的就是大规模地、长时间地获取数据,跟我们正常浏览器获取数据相比,虽然机理相差不大,但总是一个IP去爬网站,大规模集中对服务器访问,时间一长就有可能被拒绝。关于爬虫长时间爬取数据,可能会要求验证码,即便是多个账号轮流爬取仍然会出现要求输入验证码的情况。技巧一:设置下载等待时间/下载频率大规模集中访问对服务器的影响较大,爬虫可以短时间增大服务器负载。这里需要注意的是:设定下载等
2014-10-01 12:53:32 9776
原创 【网络爬虫】【java】微博爬虫(四):数据处理——jsoup工具解析html、dom4j读写xml
之前提到过,对于简单的网页结构解析,可以直接通过观察法、手工写正则解析,可以做出来,比如网易微博。但是对于结构稍微复杂点的,比如新浪微博,如果还用正则,用眼睛一个个去找,未免太麻烦了。 本文介绍两个工具包:解析html, xml的jsoup,和读写xml的dom4j。 工具包jsoup是解析html、xml的利器,利用jsoup可以快速读取html等规范文档格式
2014-10-01 08:53:16 6367
原创 【网络爬虫】【java】微博爬虫(三):庖丁解牛——HTML结构分析与正则切分
在上一篇文章中已经通过请求的url地址把html页面爬取下来了,这里分别以网易微博的html和新浪微博的html为例来分析如何提取微博数据。一、网易微博解析 相比新浪微博的html结构,网易微博的比较容易明显地看出来,也容易找到微博数据。查看其html结构不是网页里右键→“查看网页源代码”,那里的微博正文是以html标签形式显示的,而程序实际请求返回得到的html的微博正文是
2014-10-01 08:49:30 2878 2
SublimeText安装包
2015-11-17
pyinstaller-2.1.zip
2014-10-03
mysqldb-python-1.2.3
2014-09-11
mahout-core-0.9.jar
2014-09-04
mahout 0.7
2014-09-04
java反编译工具jad
2014-08-15
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人