2013年10月_Towan

12月 11月 10月

转载数据加载的bigpipe

数据加载的bigpipe今天听一个关于页面加载的分享，想到了bigpipe模式，记一下今天相关的了解。1.传统的页面加载模式：用户点击了一个链接，即向服务器发送了一个请求，服务器收到请求，整合完页面所需的全部资源后，在一个HTTP Response 中把它传送给客户端。浏览器收到数据，解析渲染，页面展示出来，这是一个单线程的过程。即，服务器在组织数据时，浏览器处于等待的状态，浏览器在渲

2013-10-31 15:13:34 1149

原创新浪微博的页面解析思考

一长串JSON怎样去解析啊？script>FM.view({"ns":"pl.content.homeFeed.index","domid":"Pl_Core_OwnerFeed__3","css":["style/css/module/frameset/comb_PRF_feed.css?version=c604a935e6b94f26"],"js":"page/js/pl/

2013-10-31 14:53:03 6736 3

原创版本控制--Git

如果你严肃对待编程，就必定会使用”版本管理系统”（Version Control System）。眼下最流行的”版本管理系统”，非Git莫属。相比同类软件，Git有很多优点。其中很显著的一点，就是版本的分支（branch）和合并（merge）十分方便。有些传统的版本管理软件，分支操作实际上会生成一份现有代码的物理拷贝，而Git只生成一个指向当前版本（又称”快照”）的指针，因此非常快

2013-10-31 13:47:53 975

原创使用jsoup对html文档进行解析

jsoup 是一款 Java 的 HTML 解析器，可直接解析某个 URL 地址、HTML 文本内容。它提供了一套非常省力的 API，可通过 DOM，CSS 以及类似于 jQuery 的操作方法来取出和操作数据。jsoup 的主要功能如下：1. 从一个 URL，文件或字符串中解析 HTML；2. 使用 DOM 或 CSS 选择器来查找、取出数据；3. 可操作 HTML 元素、属性、

2013-10-31 13:43:52 918

转载 HTTP cookies

from http://hc.apache.org/httpcomponents-client-ga/tutorial/html/statemgmt.html3.1. HTTP cookiesAn HTTP cookie is a token or short packet of state information that the HTTP agent and the target

2013-10-28 14:01:33 1011

原创在爬取数据时遇到的问题

现在已经能够进行模拟登陆了。1.为什么只能查看到一个公众人物的相关信息，诸如易中天、王文京、曾志勇等，却不能通过模拟登陆查看到诸如我的同事相关的信息呢？自己真的是想得太简单了

2013-10-28 11:20:59 1492

转载新浪微博单点登陆分析

一篇百度文档：http://wenku.baidu.com/view/41980fc74028915f804dc2ad.html

2013-10-25 14:58:40 2273

原创 http状态码摘记

100 Continue：初始的请求已经接受，客户应当继续发送请求的其余部分。 101 Switching Protocols：服务器将遵从客户的请求转换到另外一种协议。 200 OK：一切正常，对GET和POST请求的应答文档跟在后面。如果不用SetStatus设置状态代码，Servlet默认使用202状态代码。 201 Created 服务器已经创建了文档，Location头给出了

2013-10-25 13:56:17 984

原创非法探取密码的原理及其防范

一、非法获取Password的原理： Edit控件是Windows的一个标准控件，当把其Password属性设为True时就会将输入的内容屏蔽为星号，从而达到保护的目的。虽然我们看来都是星号，但程序中的Edit控件实际仍是用户输入的密码，应用程序可以获取该控件中的密码，其他应用程序也可以通过向其发送WM_GETTEXT或EM_GETLINE消息来获取Edit控件中的内容。黑客程序正是利用Edi

2013-10-25 11:32:00 1355 1

转载微博登陆过程再次分析

微博很火啊，开发了一个微博爬虫应用有的人会说新浪微博不是API吗，为什么还要取单独开发爬虫系统呢如果你用过新浪微博API，你就知道，有着诸多限制，功能少，信息少，信息不全，调用次数限制，重新授权等等一系列的问题，最主要是返回的信息量少喝调用次数限制，还有针对IP的.我们设计这个爬虫的初衷是新浪微博的所有信息，目前是70%，为什么不是100%呢，说到底还是资源问题了.新

2013-10-25 11:02:24 2366

转载 Apache Jakarta 项目介绍

Apache Jakarta apache是一个开源的组织名。后来制定了一个以apache命名的开源协议。 jakarta是apache组织下的一套Java解决方案的开源软件的名称，它包括了很多子项目。apache工程jakarta（雅加达）家族介绍Apache Ant ProjectAnt 众所周知，Ant（蚂蚁）是一套基于java的程序打造工具。Ap

2013-10-25 08:23:31 1336

翻译分析ssologin.js

既然我们知道了servertime跟nonce是用于加密的，不妨在文件中搜一下这两个关键字，一搜找到了好东西：翻回去上文看看，表单中有个su和sp，都在这里了，可以看到su使用的是base64加密方式；而su就稍微复杂一点了，if中的是新浪当前版本的密码加密方式rsa2的代码，而else中的是就版本sha加密的代码，我们只需要关心if中的内容，加密过程很简单，先是生成一个

2013-10-24 20:29:45 2259 1

原创新浪微博登陆过程分析

一篇较新的文章(目前还能用2013.10.24）http://www.codesky.net/article/201004/98127.html

2013-10-24 16:52:11 1121

原创 java矩阵包

jama:java 矩阵包背景jama是一个基本的线性代数java包，它提供了实数非稀疏矩阵类，程序员可构造操控这些类。对于经常使用到矩阵运算的码农来说，即使不精通线性代数也没有关系，因为jama包提供的功能已经够用，调用方便，使用自然，而且易于理解。Jama包意欲称为java的标准矩阵包，这一标准计划将提交给Java Grande论坛，转而交给sun公司。java矩阵类的潜在竞争对手包括

2013-10-23 20:15:11 1308

原创 java中的数学函数

java中的数学计算函数 Math类： java.lang.Math类中包含基本的数字操作，如指数、对数、平方根和三角函数。 java.math是一个包，提供用于执行任意精度整数(BigInteger)算法和任意精度小数(BigDecimal)算法的类。 java.lang.Math类中包含E和PI两个静态常量，以及进行科学计算的类(static)方法，可以直接通过

2013-10-23 20:06:53 1662

原创低成本服务器搭建千万级数据采集系统

有这样一个采集系统的需求，达成指标：需要采集30万关键词的数据、微博必须在一个小时采集到、覆盖四大微博（新浪微博、腾讯微博、网易微博、搜狐微博）。为了节约客户成本，硬件为普通服务器：E5200 双核 2.5G cpu， 4 G DDR3 1333内存，硬盘 500G SATA 7200转硬盘。数据库为mysql。在这样的条件下我们能否实现这个系统目标？当然如果有更好的硬件不是这个文章阐述的内容

2013-10-21 16:36:26 1991 2

转载利用java程序模拟登陆新浪微博

上篇介绍了对于新浪微博登陆机制的阐述，下面将介绍一篇很好的使用java模拟登陆新浪微博http://3352580.blog.51cto.com/3342580/1205051

2013-10-21 15:13:39 4215

原创新浪微博登录过程

下面简单介绍新浪微博的登录过程：在登录之前我们需要先从新浪服务器获取两个变量：servertime,nonce。其中servertime中新浪的服务器时间，nonce是一个随机生成的字符串。获取的需要通过这样一个网络接口：http://login.sina.com.cn/sso/prelogin.php?entry=miniblog&callback=sinaSSOControll

2013-10-21 14:58:35 2096

原创进行微博数据抓取参考

参考1：功能是:获取新浪微博1000w用户的基本信息和每个爬取用户最近发表的50条微博,使用python编写，多进程爬取，将数据存储在了mongodb中说明：获取新浪微博1000w用户的基本信息和每个爬取用户最近发表的50条微博地址： https://github.com/gnemoug/sina_reptile.git,代码只是针对sdk的，但是实际上对sdk进行了更改，所以移

2013-10-21 14:35:07 3227 2

转载新浪微博 2013 年 6 月的 API 变更将会带来哪些影响？

确实这一升级给开发者带来了不少的影响。 http://www.zhihu.com/question/21243305

2013-10-21 11:12:08 1624

原创不用微博开放api直接进行爬去微博需要解决问题

1.模拟登陆。从什么节点开始的问题2.parse页面信息。

2013-10-21 09:45:58 2073

转载利用Heritrix构建特定站点爬虫

http://www.ibm.com/developerworks/cn/opensource/os-cn-heritrix/

2013-10-14 16:52:16 1536

原创关于微博数据抓取的实践

最近接到一个任务主要是想抓取微博相关微博数据。比如说抓取一个特定微博中微博数、关注数、被关注的粉丝数、个人相关信息比如居住地、学校等公开的信息，以及被关注数的粉丝、微博数、关注数及相关信息。以便收集到信息以后用来做数据挖掘。调查了许久，发现获取数据的方法大概有三种方法：1.相关微博开发平台提供的api2.使用网络爬虫3.结合爬虫及微博开放api方法进行抓取。

2013-10-14 15:49:32 3965 1

原创微博数据的抓取---正则表达式的构想

对于静态页面或网页结构不变的页面可以方便的使用java正则表达式进行页面数据的提取，很方便。。是否微博页面信息是否也是那样的容易提取？取决于以下两个条件1.微博页面的结构一定时间保持不变，期望复用程序，而不必去改正则表达式【外在条件】2.对与正则表达式的熟悉程度【内在条件】

2013-10-12 15:35:42 1248

原创 java网页数据采集器

使用正则表达式进行采集html页面利用java自身的HtmlParserhttp://www.cnblogs.com/longwu/archive/2012/01/03/2310588.html

2013-10-12 15:14:25 1245

原创蜂鸟舆情系统

蜂鸟舆情系统采用搜索引擎技术、文本处理技术、自然语言处理和智能分析等技术，对互联网海量信息自动获取和进行多维度融合分析，从而7*24小时监控新闻、微博、论坛、博客、元搜索等舆情信息的变化，及时帮助用户掌握各种商业信息和网络舆论动向，提高企业的竞争力和掌控能力。

2013-10-12 14:25:12 3190

原创 vba采集新浪微博数据

我们最好是使用新浪微博开放平台api进行采集，当然，想要使用api必须有app key采取如下过程：1.我们知道vba采集数据经常用到一个对象就是microsoft.xmlhttp对象，这次也是使用该对象，所以我们先用vba创建一个对象，如图所示的代码就是创建一个microsoft.xmlhttp对象2.接着，我们随便找到一个接口，比如我们就调用最新发布的微博，使用如图所示的接

2013-10-12 11:52:57 1974

原创网络爬虫

首先明白互联网页面划分为五个部分：1.已下载网页集合2.已过期网页集合3.待下载网页集合4.可知网页集合5.不可知网页集合爬虫分为三种类型1.批量性爬虫2.增量型爬虫3.垂直型爬虫爬虫抓取的策略1.宽度优先遍历2.非完全PageRank3.OPIC(Online Page Importantance Computa

2013-10-12 08:55:42 1417

原创微博抓取

1.微博抓取的含义2.微博抓取的数据微博作者、作者VIP判断、微博内容、发布时间、抓发评论数、如果是转发的微博还包括转发者及转发者说的话的详细信息3.微博抓取的工具a.ROST 新浪定时监控工具，基于新浪微博Oauth模式认证下调用新浪微博api抓取新浪微博数据，支持实时（最少5秒钟抓取更新一次）抓取数据4.微博抓取的方法a.正则表达式，自己做

2013-10-10 13:58:31 2098

原创 kafka学习之二

要点如下1.日志的存储分区追加方式2.offSet,3.生产者和消费者都能选择分区去发送4.消息的传递有两种方式----队列和发布订阅的方式5.为了保证在传输中的整体顺序，分区数设置为1，此时的消费者就是一个了；如果分区多，kafka异步传输消息到每个分区，就难保证整体的完整有序。使用场景1.kafka作为消息代理除了解藕、缓存外，还有高吞吐量和

2013-10-10 10:39:36 836

原创 kafka学习之路

本文主要关注why-->what---->How1Why？为什么要学习kafka？主要基于kafka的诸多应用：诸多大公司都在用如：淘宝、LinkIna.kafka在我们进行消息处理的时候吞吐量大，及每秒钟转发数据量大，多大？2.What?kafka是什么？kafka是一个分布式消息分发系统kafka的工作原理【三个角色】kafka的设计思想

2013-10-09 11:04:30 1015