- 博客(14)
- 资源 (10)
- 收藏
- 关注
原创 Obama VS Romney on Twitter
今天想总结下前段时间学习的java语言和抓包的一些技巧。于是我编写了一个抓包工具抓取了Obama和Romney十月一号到11月29号发的所有微博。主要是想通过信息的总结,看看能看出什么表面上看不到的东西我主要分析了以下几点:1 Obama和Romney每天都是什么时间发twitter2 从两个人的tweets看看两人常说的单词有哪些3 观察下在两个月中,两个人那几天twee
2012-11-30 21:49:13 823 2
原创 PCA的一点理解
PCA通常用来对特征降维。比如一个2000维的特征,我们通过pca降到100维等。PCA的原理是协方差矩阵。怎么理解呢?比如,我们对一个目标提取了一些特征,我们说是A特征,和B特征吧但实际上呢,A特征和B特征是很相似的,保留一个就可以。那么怎么筛选呢?我们取A和B的协方差。如何值很大,说明彼此的相似度很小,反之则很大。我们保留大的,去掉小的,就算作是PCA降维度了。我们
2012-11-28 22:41:03 1013
原创 Ajax使用
Ajax是一个动态网页的加载方式,他可以根据需要动态的在原有网页上添加新的信息。而不用去服务器请求新的网页,更节省资源,同时速度更快。Ajax有固定的套路,我先举一个例子:function loadXMLDoc(){ var xmlhttp; var txt,x,xx,i; if (window.XMLHttpRequest) {// code for IE7+
2012-11-28 18:57:12 580
原创 Online learning of robust object detectors during unstable tracking
文章主要介绍了一下TMD-tracing model detection的跟踪系统。其中主要介绍的应该是Online learning的算法,或者是系统。个人感觉这个是Zdenek PN-learning算法的雏形。这个online learning算法主要由两个部分组成。1 Growing events 挑选正样本添加到训练集中。2 Pruning events 修剪负样本,让模
2012-11-27 10:13:28 1096
转载 Mongodb数据导入导出以及备份恢复
数据导出 mongoexport假设库里有一张user 表,里面有2 条记录,我们要将它导出> use my_mongodbswitched to db my_mongodb> db.user.find();{ "_id" : ObjectId("4f81a4a1779282ca68fd8a5a"), "uid" : 2, "username" : "Jerry", "ag
2012-11-21 09:11:30 848
原创 抓取Foursquare网页信息的爬虫
总结下最近完成的一个爬虫,具体就不说了,代码贴出来,需要的同学可以拿去玩玩。Foursquare最大的问题是动态网页,就是会所网址不变,但内容在变。这样的化,用Jsoup就无能为力了因此我使用了Selenium去解决动态网页的问题,代码调试的时候大家记得需要导入这个文件。单个地点抓取类:package Test1;import java.net.UnknownHostExcep
2012-11-20 09:53:52 2483 2
原创 动态网页解析 Selenium
对于静态网页的解析,我们一般使用Jsoup就可以了但是对已动态加载的网页,Jsoup就不可以了!那么我们如何解析并抓取网页上的信息呢?看了网上朋友的讨论,我打算模拟一个浏览器然后通过操作浏览器来得到新的网页信息。最终我选择了Selenium来模拟浏览器。其实Selenium是一个测试浏览器性能的工具,用来爬虫有点大材小用了!Selenium官网地址:http://selen
2012-11-20 09:45:40 3844
原创 Java Set Example
Set是java中的一个容器,他有个很好的有点,就是不会重复存取同样的数据。这样可以避免我们的查重工作。而且他的操作与queue和堆栈很类似给出一个小例子:package Test2;import java.util.Iterator;import java.util.Set;import java.util.TreeSet;public class Test2 {
2012-11-20 08:56:22 1662
转载 Java Queue Example
在java5中新增加了java.util.Queue接口,用以支持队列的常见操作。该接口扩展了java.util.Collection接口。Queue使用时要尽量避免Collection的add()和remove()方法,而是要使用offer()来加入元素,使用poll()来获取并移出元素。它们的优点是通过返回值可以判断成功与否,add()和remove()方法在失败的时候会抛出异常。 如
2012-11-20 08:46:19 849
原创 Jsoup解析HTML文件
仅仅是初步的解析,对于动态网页还没有好的办法。希望高人可以给出建议。Jsoup比较方便,只要记住了select的规则就ok了不明白的多试试就ok了!代码贴出来分分享下://package org.jsoup.examples;import java.net.UnknownHostException;import com.mongodb.BasicDBObject;impo
2012-11-13 19:01:09 2337
原创 Jave 模拟 http 请求
在编写一个爬虫,当然必须要模拟http请求了!于是又了下面的代码:import java.io.BufferedReader;import java.io.IOException;import java.io.InputStream;import java.io.InputStreamReader;import java.io.OutputStreamWriter;import
2012-11-13 10:52:20 739
原创 Mongodb Java操作
最近终于感觉到了java的一个最好的特点:跨平台。终于不用管移植的问题了。去mongodb官网上下载java的开发包添加进安装java时设置的class path中(系统环境变量里面)就可以操作了。给出一段代码://package com.mkyong.core;import java.net.UnknownHostException;import com.mongod
2012-11-13 09:30:24 732
原创 Eigenface Detection Matlab
行人检查中突然感觉可以尝试下Eigenface的方法。意识参考了:http://www.pages.drexel.edu/~sis26/Eigenface%20Tutorial.htm研究了下Eigen的方法。其实Eigen就是把一组相同的图片加起来求平均,作为一个模板然后保留起来。之后对输入的图片与这个模板求差值然后看这个产值也可说是距离的远近来判断输入的face是不
2012-11-12 19:03:46 1111
原创 BibTeX的使用
之前那个word的参考文献,写起来真心麻烦。最近在用latex,太好用了,绝对是给我这种懒人用的。今天说下latex下参考文献怎么用。假设我们需要引用一个文献:“Paper Name”。我们可以去dblp中去查这个文献,然后你会发现文献旁边有一个bibtex的图标。点进去你会发现如下代码:@article{DBLP:journals/sigpro/SuZZ11, aut
2012-11-05 12:58:33 1659
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人