自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(31)
  • 资源 (5)
  • 收藏
  • 关注

转载 数据加载的bigpipe

数据加载的bigpipe今天听一个关于页面加载的分享,想到了bigpipe模式,记一下今天相关的了解。1.传统的页面加载模式:用户点击了一个链接,即向服务器发送了一个请求,服务器收到请求,整合完页面所需的全部资源后,在一个HTTP Response 中把它传送给客户端。浏览器收到数据,解析渲染,页面展示出来,这是一个单线程的过程。即,服务器在组织数据时,浏览器处于等待的状态,浏览器在渲

2013-10-31 15:13:34 1149

原创 新浪微博的页面解析思考

一长串JSON怎样去解析啊?script>FM.view({"ns":"pl.content.homeFeed.index","domid":"Pl_Core_OwnerFeed__3","css":["style/css/module/frameset/comb_PRF_feed.css?version=c604a935e6b94f26"],"js":"page/js/pl/

2013-10-31 14:53:03 6736 3

原创 版本控制--Git

如果你严肃对待编程,就必定会使用”版本管理系统”(Version Control System)。眼下最流行的”版本管理系统”,非Git莫属。相比同类软件,Git有很多优点。其中很显著的一点,就是版本的分支(branch)和合并(merge)十分方便。有些传统的版本管理软件,分支操作实际上会生成一份现有代码的物理拷贝,而Git只生成一个指向当前版本(又称”快照”)的指针,因此非常快

2013-10-31 13:47:53 975

原创 使用jsoup对html文档进行解析

jsoup 是一款 Java 的 HTML 解析器,可直接解析某个 URL 地址、HTML 文本内容。它提供了一套非常省力的 API,可通过 DOM,CSS 以及类似于 jQuery 的操作方法来取出和操作数据。jsoup 的主要功能如下:1. 从一个 URL,文件或字符串中解析 HTML;2. 使用 DOM 或 CSS 选择器来查找、取出数据;3. 可操作 HTML 元素、属性、

2013-10-31 13:43:52 918

转载 HTTP cookies

from http://hc.apache.org/httpcomponents-client-ga/tutorial/html/statemgmt.html3.1. HTTP cookiesAn HTTP cookie is a token or short packet of state information that the HTTP agent and the target

2013-10-28 14:01:33 1011

原创 在爬取数据时遇到的问题

现在已经能够进行模拟登陆了。1.为什么只能查看到一个公众人物的相关信息,诸如易中天、王文京、曾志勇等,却不能通过模拟登陆查看到诸如我的同事相关的信息呢?自己真的是想得太简单了

2013-10-28 11:20:59 1492

转载 新浪微博单点登陆分析

一篇百度文档:http://wenku.baidu.com/view/41980fc74028915f804dc2ad.html

2013-10-25 14:58:40 2273

原创 http状态码摘记

100 Continue:初始的请求已经接受,客户应当继续发送请求的其余部分。 101 Switching Protocols:服务器将遵从客户的请求转换到另外一种协议。 200 OK:一切正常,对GET和POST请求的应答文档跟在后面。如果不用SetStatus设置状态代码,Servlet默认使用202状态代码。 201 Created 服务器已经创建了文档,Location头给出了

2013-10-25 13:56:17 984

原创 非法探取密码的原理及其防范

一、非法获取Password的原理: Edit控件是Windows的一个标准控件,当把其Password属性设为True时就会将输入的内容屏蔽为星号,从而达到保护的目的。虽然我们看来都是星号,但程序中的Edit控件实际仍是用户输入的密码,应用程序可以获取该控件中的密码,其他应用程序也可以通过向其发送WM_GETTEXT或EM_GETLINE消息来获取Edit控件中的内容。黑客程序正是利用Edi

2013-10-25 11:32:00 1355 1

转载 微博登陆过程再次分析

微博很火啊,开发了一个微博爬虫应用有的人 会说 新浪微博 不是API吗,为什么还要取单独开发爬虫系统呢如果你用过新浪微博API,你就知道,有着诸多限制,功能少,信息少,信息不全,调用次数限制,重新授权等等 一系列的问题,最主要是返回的信息量少喝调用次数限制,还有针对IP的.我们设计这个爬虫的初衷是新浪微博的所有信息,目前是70%,为什么不是100%呢,说到底 还是资源问题了.新

2013-10-25 11:02:24 2366

转载 Apache Jakarta 项目介绍

Apache Jakarta apache是一个开源的组织名。后来制定了一个以apache命名的开源协议。 jakarta是apache组织下的一套Java解决方案的开源软件的名称,它包括了很多子项目。apache工程jakarta(雅加达)家族介绍Apache Ant ProjectAnt 众所周知,Ant(蚂蚁)是一套基于java的程序打造工具。Ap

2013-10-25 08:23:31 1336

翻译 分析ssologin.js

既然我们知道了servertime跟nonce是用于加密的,不妨在文件中搜一下这两个关键字,一搜找到了好东西:  翻回去上文看看,表单中有个su和sp,都在这里了,可以看到su使用的是base64加密方式;而su就稍微复杂一点了,if中的是新浪当前版本的密码加密方式rsa2的代码,而else中的是就版本sha加密的代码,我们只需要关心if中的内容, 加密过程很简单,先是生成一个

2013-10-24 20:29:45 2259 1

原创 新浪微博登陆过程分析

一篇较新的文章(目前还能用2013.10.24)http://www.codesky.net/article/201004/98127.html

2013-10-24 16:52:11 1121

原创 java矩阵包

jama:java 矩阵包背景jama是一个基本的线性代数java包,它提供了实数非稀疏矩阵类,程序员可构造操控这些类。对于经常使用到矩阵运算的码农来说,即使不精通线性代数也没有关系,因为jama包提供的功能已经够用,调用方便,使用自然,而且易于理解。Jama包意欲称为java的标准矩阵包,这一标准计划将提交给Java Grande论坛,转而交给sun公司。java矩阵类的潜在竞争对手包括

2013-10-23 20:15:11 1308

原创 java中的数学函数

java中的数学计算函数 Math类:  java.lang.Math类中包含基本的数字操作,如指数、对数、平方根和三角函数。  java.math是一个包,提供用于执行任意精度整数(BigInteger)算法和任意精度小数(BigDecimal)算法的类。   java.lang.Math类中包含E和PI两个静态常量,以及进行科学计算的类(static)方法,可以直接通过

2013-10-23 20:06:53 1662

原创 低成本服务器搭建千万级数据采集系统

有这样一个采集系统的需求,达成指标: 需要采集30万关键词的数据 、微博必须在一个小时采集到、覆盖四大微博(新浪微博、腾讯微博、网易微博、搜狐微博)。为了节约客户成本,硬件为普通服务器:E5200 双核 2.5G cpu, 4 G DDR3 1333内存,硬盘 500G SATA 7200转硬盘。数据库为mysql。在这样的条件下我们能否实现这个系统目标?当然如果有更好的硬件不是这个文章阐述的内容

2013-10-21 16:36:26 1991 2

转载 利用java程序模拟登陆新浪微博

上篇介绍了对于新浪微博登陆机制的阐述,下面将介绍一篇很好的使用java模拟登陆新浪微博http://3352580.blog.51cto.com/3342580/1205051

2013-10-21 15:13:39 4215

原创 新浪微博登录过程

下面简单介绍新浪微博的登录 过程:在登录之前我们需要先从新浪服务器获取两个变量:servertime,nonce。其中servertime中新浪的服务器时间,nonce是一 个随机生成的字符串。获取的需要通过这样一个网络接口:http://login.sina.com.cn/sso/prelogin.php?entry=miniblog&callback=sinaSSOControll

2013-10-21 14:58:35 2096

原创 进行微博数据抓取参考

参考1:功能是:获取新浪微博1000w用户的基本信息和每个爬取用户最近发表的50条微博,使用python编写,多进程爬取,将数据存储在了mongodb中 说明:获取新浪微博1000w用户的基本信息和每个爬取用户最近发表的50条微博地址: https://github.com/gnemoug/sina_reptile.git,代码只是针对sdk的,但是实际上对sdk进行了更改,所以移

2013-10-21 14:35:07 3227 2

转载 新浪微博 2013 年 6 月的 API 变更将会带来哪些影响?

确实这一升级给开发者带来了不少的影响。    http://www.zhihu.com/question/21243305

2013-10-21 11:12:08 1624

原创 不用微博开放api直接进行爬去微博需要解决问题

1.模拟登陆。从什么节点开始的问题2.parse页面信息。

2013-10-21 09:45:58 2073

转载 利用Heritrix构建特定站点爬虫

http://www.ibm.com/developerworks/cn/opensource/os-cn-heritrix/

2013-10-14 16:52:16 1536

原创 关于微博数据抓取的实践

最近接到一个任务主要是想抓取微博相关微博数据。比如说抓取一个特定微博中微博数、关注数、被关注的粉丝数、个人相关信息比如居住地、学校等公开的信息,以及被关注数的粉丝、微博数、关注数及相关信息。以便收集到信息以后用来做数据挖掘。     调查了许久,发现获取数据的方法大概有三种方法:1.相关微博开发平台提供的api2.使用网络爬虫3.结合爬虫及微博开放api方法进行抓取。 

2013-10-14 15:49:32 3965 1

原创 微博数据的抓取---正则表达式的构想

对于静态页面或网页结构不变的页面可以方便的使用java正则表达式进行页面数据的提取,很方便。。是否微博页面信息是否也是那样的容易提取?取决于以下两个条件1.微博页面的结构一定时间保持不变,期望复用程序,而不必去改正则表达式【外在条件】2.对与正则表达式的熟悉程度【内在条件】

2013-10-12 15:35:42 1248

原创 java网页数据采集器

使用正则表达式进行采集html页面利用java自身的HtmlParserhttp://www.cnblogs.com/longwu/archive/2012/01/03/2310588.html

2013-10-12 15:14:25 1245

原创 蜂鸟舆情系统

蜂鸟舆情系统采用搜索引擎技术、文本处理技术、自然语言处理和智能分析等技术,对互联网海量信息自动获取和进行多维度融合分析,从而7*24小时监控新闻、微博、论坛、博客、元搜索等舆情信息的变化,及时帮助用户掌握各种商业信息和网络舆论动向,提高企业的竞争力和掌控能力。

2013-10-12 14:25:12 3190

原创 vba采集新浪微博数据

我们最好是使用新浪微博开放平台api进行采集,当然,想要使用api必须有app key采取如下过程:1.我们知道vba采集数据经常用到一个对象就是microsoft.xmlhttp对象,这次也是使用该对象,所以我们先用vba创建一个对象,如图所示的代码就是创建一个microsoft.xmlhttp对象2.接着,我们随便找到一个接口,比如我们就调用最新发布的微博,使用如图所示的接

2013-10-12 11:52:57 1974

原创 网络爬虫

首先明白互联网页面划分为五个部分:1.已下载网页集合2.已过期网页集合3.待下载网页集合4.可知网页集合5.不可知网页集合爬虫分为三种类型1.批量性爬虫2.增量型爬虫3.垂直型爬虫爬虫抓取的策略1.宽度优先遍历2.非完全PageRank3.OPIC(Online Page Importantance Computa

2013-10-12 08:55:42 1417

原创 微博抓取

1.微博抓取的含义2.微博抓取的数据 微博作者、作者VIP判断、微博内容、发布时间、抓发评论数、如果是转发的微博还包括转发者及转发者说的话的详细信息3.微博抓取的工具a.ROST 新浪定时监控工具,基于新浪微博Oauth模式认证下调用新浪微博api抓取新浪微博数据,支持实时(最少5秒钟抓取更新一次)抓取数据4.微博抓取的方法a.正则表达式,自己做

2013-10-10 13:58:31 2098

原创 kafka学习之二

要点如下1.日志的存储分区追加方式2.offSet,3.生产者和消费者都能选择分区去发送4.消息的传递有两种方式----队列和发布订阅的方式5.为了保证在传输中的整体顺序,分区数设置为1,此时的消费者就是一个了;如果分区多,kafka异步传输消息到每个分区,就难保证整体的完整有序。使用场景1.kafka作为消息代理除了解藕、缓存外,还有高吞吐量和

2013-10-10 10:39:36 836

原创 kafka学习之路

本文主要关注why-->what---->How1Why?为什么要学习kafka?主要基于kafka的诸多应用:诸多大公司都在用如:淘宝、LinkIna.kafka在我们进行消息处理的时候吞吐量大,及每秒钟转发数据量大,多大?2.What?kafka是什么?kafka是一个分布式消息分发系统kafka的工作原理【三个角色】kafka的设计思想

2013-10-09 11:04:30 1015

微博爬虫代码

两周多的结果,不调用新浪微博、腾讯微博等四大微博官方提供的api进行微博内容的抓取,获取到更多的信息,可定制自己的需求。

2013-10-22

mm中文分词器

目前最新的中文分词器,可以动态的添加新词,内置有关于淘宝的词库,方便lucene开发或基于lucene的solr的开发用户使用。

2013-10-22

Matlab掌握+绘图+语法

系统介绍了Matlab的基本语法以及给出了诸多经典画图例子,是难的的好资料

2013-03-07

C语言经典问题

一些历史上经典问题(八皇后、白鸡百钱)、数据结构等问题适合C语言有一定基础,且数学基本功较好的学员,对基础油很大提高

2013-03-07

五子棋(C++语言)

本人初次上传资料,本资料乃C++经典学习例子,对C++及逻辑思维的锻炼大有裨益

2013-03-07

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除