DianaCody's Blog

博客部分文章已移至个人站点http://www.dianacody.com，关注Recommend System, Search Engine, Machine Learning, NLP。欢迎访问。

11月 10月 09月 08月 07月 06月 05月 04月 03月

原创 linux创建守护进程

一、概述 linux开启进程都是与终端绑定的，终端一关，进程也关，如果想独立不受干扰，必须将此进程变为守护进程（在后台运行，不以终端方式与用户交互）。守护进程能够突破这种限制，它从被执行开始运转，直到整个系统关闭时才退出。如果想让某个进程不因为用户或终端或其他地变化而受到影响，那么就必须把这个进程变成一个守护进程。二、守护进程特性守护进程最重要的

2014-10-12 12:27:40 2475

原创打包python文件为exe文件（PyInstaller工具使用方法）

最近做的新浪微博爬虫程序，打算打包成.exe软件以方便使用，网上找到一个很好的打包工具pyinstaller，这里记录一下打包的方法。一、下载pyinstaller我使用的版本为PyInstaller-2.1，支持python版本2.3-2.7，点击这里下载。二、安装pyinstaller下载完成后，解压即可。我的解压目录为D:\Python27\PyInstaller-2

2014-10-03 23:46:33 10615 1

原创【网络爬虫】【python】网络爬虫（五）：scrapy爬虫初探——爬取网页及选择器

在上一篇文章的末尾，我们创建了一个scrapy框架的爬虫项目test，现在来运行下一个简单的爬虫，看看scrapy爬取的过程是怎样的。一、爬虫类编写（spider.py）vdsv

2014-10-03 09:57:01 3298

原创【网络爬虫】【python】网络爬虫（四）：scrapy爬虫框架（架构、win/linux安装、文件结构）

scrapy框架的学习，目前个人觉得比较详尽的资料主要有两个：1.官方教程文档、scrapy的github wiki；2.一个很好的scrapy中文文档：http://scrapy-chs.readthedocs.org/zh_CN/0.24/index.html；剩下的就是网上其他的一些demo。一、scrapy框架结构还是先上个图吧，这

2014-10-02 23:37:39 4087

原创【网络爬虫】【python】网络爬虫（三）：模拟登录——伪装浏览器登录爬取过程

一、关于抓包分析和debug Log信息模拟登录访问需要设置request header信息，，而python抓包可以直接使用urllib2把debug Log打开，数据包的内容可以打印出来，这样都可以不用抓包了，直接可以看到request header里的内容。

2014-10-02 23:16:45 10137 2

原创【网络爬虫】【python】网络爬虫（二）：网易微博爬虫软件开发实例（附软件源码）

对于urllib2的学习，这里先推荐一个教程《IronPython In Action》，上面有很多简明例子，并且也有很详尽的原理解释：http://www.voidspace.org.uk/python/articles/urllib2.shtml 最基本的爬虫，主要就是两个函数的使用urllib2.urlopen()和re.compile()。一、网页抓取简单例子

2014-10-02 23:03:41 3528

原创【网络爬虫】【python】网络爬虫（一）：python爬虫概述

python爬虫的实现方式：1.简单点的urllib2+regex，足够了，可以实现最基本的网页下载功能。实现思路就是前面java版爬虫差不多，把网页拉回来，再正则regex解析信息……总结起来，两个函数：urllibw.urlopen()和re.compile()。其实对于正则解析html网页，python同样有和jsoup类似的工具包——BeautifulSoup，用好了同样比正则省事多了

2014-10-02 00:23:33 2998

原创【网络爬虫】【java】微博爬虫（五）：防止爬虫被墙的几个技巧（总结篇）

爬虫的目的就是大规模地、长时间地获取数据，跟我们正常浏览器获取数据相比，虽然机理相差不大，但总是一个IP去爬网站，大规模集中对服务器访问，时间一长就有可能被拒绝。关于爬虫长时间爬取数据，可能会要求验证码，即便是多个账号轮流爬取仍然会出现要求输入验证码的情况。技巧一：设置下载等待时间/下载频率大规模集中访问对服务器的影响较大，爬虫可以短时间增大服务器负载。这里需要注意的是：设定下载等

2014-10-01 12:53:32 9776

原创【网络爬虫】【java】微博爬虫（四）：数据处理——jsoup工具解析html、dom4j读写xml

之前提到过，对于简单的网页结构解析，可以直接通过观察法、手工写正则解析，可以做出来，比如网易微博。但是对于结构稍微复杂点的，比如新浪微博，如果还用正则，用眼睛一个个去找，未免太麻烦了。本文介绍两个工具包：解析html, xml的jsoup，和读写xml的dom4j。工具包jsoup是解析html、xml的利器，利用jsoup可以快速读取html等规范文档格式

2014-10-01 08:53:16 6367

原创【网络爬虫】【java】微博爬虫（三）：庖丁解牛——HTML结构分析与正则切分

在上一篇文章中已经通过请求的url地址把html页面爬取下来了，这里分别以网易微博的html和新浪微博的html为例来分析如何提取微博数据。一、网易微博解析相比新浪微博的html结构，网易微博的比较容易明显地看出来，也容易找到微博数据。查看其html结构不是网页里右键→“查看网页源代码”，那里的微博正文是以html标签形式显示的，而程序实际请求返回得到的html的微博正文是

2014-10-01 08:49:30 2878 2

SBT-0.13.9.tar

SBT-0.13.9.tar，scala编译构建工具，适用linux/mac用户。官网上更新较快，此版本留作备份，需要的可以下载。

2016-03-03

scala-2.11.4.tar

scala-2.11.4.tar，适用linux/mac用户

2016-03-03

SublimeText2

老版本的SublimeText2，很多package的安装目录都与旧版兼容，留作备用版本

2015-12-03

SublimeText安装包

SublimeText安装包，底层用python编写，还可以自己编写自定义可用扩展功能插件，最好用的代码编辑器，跨平台，win/linux/mac兼容。除了vi编辑器就是它了。

2015-11-17

pyinstaller-2.1.zip

python打包exe的工具,支持python2.3-2.7，下载之后解压即可，把需要打包的.py文件放到pyinstaller目录下，再cmd命令行里进入到目标目录，命令：python pyinstaller.py -F yourprogram.py即可打包，生成的.exe文件在dist目录下

2014-10-03

easytool-0.6c11.win32-py27.exe

2014-10-02

mysqldb-python-1.2.3

mysqldb-python-1.2.3.exe(32bit,python2.7)安装包（非源码，不用build编译再安装），双击直接安装

2014-09-11

mahout-core-0.9.jar

mahout-core-0.9.jar，支持版本hadoop-2.2.x，由mahout-distribution-0.9.tar.gz源码构建生成jar包。

2014-09-04

mahout 0.7

mahout-core-0.7.jar，注意版本hadoop-1.0.x，eclipse-3.7。（mahout0.7不支持hadoop-2.2），由mahout-distribution-0.7.tar.gz源码构建生成jar包，可以直接引入。

2014-09-04

java 反编译 jad,c:\java\>jad example1.class 结果是将example1.class反编译为example1.jad。将example1.jad改为example1.java即得源文件,能恢复个大概.反编译JAR包还能在左侧直接查看目录结构，很方便。 jad.exe的命令方式反编译:jad Xxxx.class就这样就会生成一个 Xxxx.jad的文件这个文件就是java源码。能将任何java的类文件反编译成.java文件,就可以看java软件的源代码了反编译单个JAVA语言的CLASS文件,在命令行输入: jad example.class回车

2014-08-15

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

SBT-0.13.9.tar

scala-2.11.4.tar

SublimeText2

ApabiReader4.5.3

SublimeText安装包

pyinstaller-2.1.zip

easytool-0.6c11.win32-py27.exe

Scrapy-0.24.2.tar.gz

lxml-3.3.5.win32-py2.7

Twisted-14.0.0.win32-py2.7

pyOpenSSL-0.13-win32-py27

zope.interface-win32-py2.7

pywin32 for python2.7

mysqldb-python-1.2.3

mahout-core-0.9.jar

mahout 0.7

java反编译工具jad

java代码混淆器proGuard

java代码反编译工具jd-gui.exe

eclipse翻译插件

eclipse时间插件

Nginx 1.6.0.tar源码

Android-sdk-15.zip

ADT-21.0.0

githubSetup.exe (for windows 7)

github Setup(for windos 7)

github-for-windows

中国国标 802.11 wlan协议

阿里2014实习生研发笔试题

PN4747标准

MLP协议标准

Linux-Shell编程

电子电路实验（RC）

空空如也