自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+

DianaCody's Blog

博客部分文章已移至个人站点http://www.dianacody.com,关注Recommend System, Search Engine, Machine Learning, NLP。欢迎访问。

  • 博客(10)
  • 资源 (35)
  • 收藏
  • 关注

原创 linux创建守护进程

一、概述        linux开启进程都是与终端绑定的,终端一关,进程也关,如果想独立不受干扰,必须将此进程变为守护进程(在后台运行,不以终端方式与用户交互)。守护进程能够突破这种限制,它从被执行开始运转,直到整个系统关闭时才退出。如果想让某个进程不因为用户或终端或其他地变化而受到影响,那么就必须把这个进程变成一个守护进程。 二、守护进程特性        守护进程最重要的

2014-10-12 12:27:40 2448

原创 打包python文件为exe文件(PyInstaller工具使用方法)

最近做的新浪微博爬虫程序,打算打包成.exe软件以方便使用,网上找到一个很好的打包工具pyinstaller,这里记录一下打包的方法。一、下载pyinstaller我使用的版本为PyInstaller-2.1,支持python版本2.3-2.7,点击这里下载。二、安装pyinstaller下载完成后,解压即可。我的解压目录为D:\Python27\PyInstaller-2

2014-10-03 23:46:33 10571 1

原创 【网络爬虫】【python】网络爬虫(五):scrapy爬虫初探——爬取网页及选择器

在上一篇文章的末尾,我们创建了一个scrapy框架的爬虫项目test,现在来运行下一个简单的爬虫,看看scrapy爬取的过程是怎样的。一、爬虫类编写(spider.py)vdsv

2014-10-03 09:57:01 3249

原创 【网络爬虫】【python】网络爬虫(四):scrapy爬虫框架(架构、win/linux安装、文件结构)

scrapy框架的学习,目前个人觉得比较详尽的资料主要有两个:1.官方教程文档、scrapy的github wiki;2.一个很好的scrapy中文文档:http://scrapy-chs.readthedocs.org/zh_CN/0.24/index.html;        剩下的就是网上其他的一些demo。 一、scrapy框架结构        还是先上个图吧,这

2014-10-02 23:37:39 4037

原创 【网络爬虫】【python】网络爬虫(三):模拟登录——伪装浏览器登录爬取过程

一、关于抓包分析和debug Log信息        模拟登录访问需要设置request header信息,,而python抓包可以直接使用urllib2把debug Log打开,数据包的内容可以打印出来,这样都可以不用抓包了,直接可以看到request header里的内容。

2014-10-02 23:16:45 10084 2

原创 【网络爬虫】【python】网络爬虫(二):网易微博爬虫软件开发实例(附软件源码)

对于urllib2的学习,这里先推荐一个教程《IronPython In Action》,上面有很多简明例子,并且也有很详尽的原理解释:http://www.voidspace.org.uk/python/articles/urllib2.shtml        最基本的爬虫,主要就是两个函数的使用urllib2.urlopen()和re.compile()。一、网页抓取简单例子 

2014-10-02 23:03:41 3499

原创 【网络爬虫】【python】网络爬虫(一):python爬虫概述

python爬虫的实现方式:1.简单点的urllib2+regex,足够了,可以实现最基本的网页下载功能。实现思路就是前面java版爬虫差不多,把网页拉回来,再正则regex解析信息……总结起来,两个函数:urllibw.urlopen()和re.compile()。其实对于正则解析html网页,python同样有和jsoup类似的工具包——BeautifulSoup,用好了同样比正则省事多了

2014-10-02 00:23:33 2950

原创 【网络爬虫】【java】微博爬虫(五):防止爬虫被墙的几个技巧(总结篇)

爬虫的目的就是大规模地、长时间地获取数据,跟我们正常浏览器获取数据相比,虽然机理相差不大,但总是一个IP去爬网站,大规模集中对服务器访问,时间一长就有可能被拒绝。关于爬虫长时间爬取数据,可能会要求验证码,即便是多个账号轮流爬取仍然会出现要求输入验证码的情况。技巧一:设置下载等待时间/下载频率大规模集中访问对服务器的影响较大,爬虫可以短时间增大服务器负载。这里需要注意的是:设定下载等

2014-10-01 12:53:32 9706

原创 【网络爬虫】【java】微博爬虫(四):数据处理——jsoup工具解析html、dom4j读写xml

之前提到过,对于简单的网页结构解析,可以直接通过观察法、手工写正则解析,可以做出来,比如网易微博。但是对于结构稍微复杂点的,比如新浪微博,如果还用正则,用眼睛一个个去找,未免太麻烦了。        本文介绍两个工具包:解析html, xml的jsoup,和读写xml的dom4j。        工具包jsoup是解析html、xml的利器,利用jsoup可以快速读取html等规范文档格式

2014-10-01 08:53:16 6331

原创 【网络爬虫】【java】微博爬虫(三):庖丁解牛——HTML结构分析与正则切分

在上一篇文章中已经通过请求的url地址把html页面爬取下来了,这里分别以网易微博的html和新浪微博的html为例来分析如何提取微博数据。一、网易微博解析        相比新浪微博的html结构,网易微博的比较容易明显地看出来,也容易找到微博数据。查看其html结构不是网页里右键→“查看网页源代码”,那里的微博正文是以html标签形式显示的,而程序实际请求返回得到的html的微博正文是

2014-10-01 08:49:30 2825 2

SBT-0.13.9.tar

SBT-0.13.9.tar,scala编译构建工具,适用linux/mac用户。官网上更新较快,此版本留作备份,需要的可以下载。

2016-03-03

scala-2.11.4.tar

scala-2.11.4.tar,适用linux/mac用户

2016-03-03

SublimeText2

老版本的SublimeText2,很多package的安装目录都与旧版兼容,留作备用版本

2015-12-03

ApabiReader4.5.3

阅读器,方正版本的老阅读器了,这个版本特地保留

2015-12-02

SublimeText安装包

SublimeText安装包,底层用python编写,还可以自己编写自定义可用扩展功能插件,最好用的代码编辑器,跨平台,win/linux/mac兼容。除了vi编辑器就是它了。

2015-11-17

pyinstaller-2.1.zip

python打包exe的工具,支持python2.3-2.7,下载之后解压即可,把需要打包的.py文件放到pyinstaller目录下,再cmd命令行里进入到目标目录,命令:python pyinstaller.py -F yourprogram.py即可打包,生成的.exe文件在dist目录下

2014-10-03

easytool-0.6c11.win32-py27.exe

easytool-0.6c11.win32-py27.exe

2014-10-02

Scrapy-0.24.2.tar.gz

Scrapy-0.24.2.tar.gz

2014-10-02

lxml-3.3.5.win32-py2.7

lxml-3.3.5.win32-py2.7

2014-10-02

Twisted-14.0.0.win32-py2.7

Twisted-14.0.0.win32-py2.7

2014-10-02

pyOpenSSL-0.13-win32-py27

pyOpenSSL-0.13-win32-py27

2014-10-02

zope.interface-win32-py2.7

zope.interface-win32-py2.7

2014-10-02

pywin32 for python2.7

pywin32 for python2.7

2014-10-02

mysqldb-python-1.2.3

mysqldb-python-1.2.3.exe(32bit,python2.7)安装包(非源码,不用build编译再安装),双击直接安装

2014-09-11

mahout-core-0.9.jar

mahout-core-0.9.jar,支持版本hadoop-2.2.x,由mahout-distribution-0.9.tar.gz源码构建生成jar包。

2014-09-04

mahout 0.7

mahout-core-0.7.jar,注意版本hadoop-1.0.x,eclipse-3.7。(mahout0.7不支持hadoop-2.2),由mahout-distribution-0.7.tar.gz源码构建生成jar包,可以直接引入。

2014-09-04

java反编译工具jad

java 反编译 jad,c:\java\>jad example1.class 结果是将example1.class反编译为example1.jad。将example1.jad改为example1.java即得源文件,能恢复个大概.反编译JAR包还能在左侧直接查看目录结构,很方便。 jad.exe的命令方式反编译:jad Xxxx.class就这样就会生成一个 Xxxx.jad的文件这个文件就是java源码。能将任何java的类文件反编译成.java文件,就可以看java软件的源代码了 反编译单个JAVA语言的CLASS文件,在命令行输入: jad example.class回车

2014-08-15

java代码混淆器proGuard

java代码混淆器proGuard,可以混淆函数变量、类、方法名以实现代码加密

2014-08-15

java代码反编译工具jd-gui.exe

java代码反编译工具jd-gui.exe,直接可以打开.class文件就可以查看java源码

2014-08-15

eclipse翻译插件

eclipse翻译插件,支持在线查询单词,把jar包放到plugin目录下即可安装插件

2014-07-21

eclipse时间插件

eclipse时间提醒插件jar包,把jar包拖到plugins目录下即可安装插件

2014-07-21

Nginx 1.6.0.tar源码

Nginx 1.6.0.tar.gz 源代码,官方原版下载

2014-07-04

Android-sdk-15.zip

android-sdk-15,开发工具SDK

2014-05-14

ADT-21.0.0

android开发工具ADT-21.0.0

2014-05-14

githubSetup.exe (for windows 7)

github client setup, 仅适用于win7,不适于winXP

2014-05-13

github Setup(for windos 7)

github client setup.exe,仅适用于win7,不适用于winXP

2014-05-13

github-for-windows

gibhub客户端下载工具,适合于win7系统,不适用于win XP

2014-05-13

802.11无线网络权威指南(第二版)

详细介绍了802.11协议以及wlan开发,是无线开发方面非常好的实用技术参考资料。

2014-04-01

中国国标 802.11 wlan协议

完整版国家标准 中文版的802.11 无线通信 物理层及MAC层协议规范

2014-04-01

阿里2014实习生研发笔试题

阿里实习生 2014 研发 笔试题 答案及其解析

2014-04-01

移动LBS的发展模式研究

移动LBS的发展模式研究,详细介绍了关于LBS应用。

2013-05-12

PN4747标准

通信PN4747标准规范,文档064-PN4747 v19.pdf

2013-05-12

MLP协议标准

MLP标准(MLP,Mobile Location Protocol)移动定位协议

2013-05-12

Linux-Shell编程

Linux-shell编程,详细介绍关于shell基本语法及用法。

2013-04-02

电子电路实验(RC)

实验报告,关于RC电路的。其实你们可以看看,这个也算是实验讲义了。

2011-03-03

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除