自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(5)
  • 资源 (3)
  • 收藏
  • 关注

原创 lucene的代码示范

import java.io.BufferedReader;import java.io.File;import java.io.FileReader;import java.io.IOException;import java.nio.file.FileSystems;import org.apache.lucene.analysis.Analyzer;import org.apache

2016-12-24 15:05:53 429

原创 java实现文件夹的拷贝

import java.io.File;import java.io.FileInputStream;import java.io.FileNotFoundException;import java.io.FileOutputStream;public class CopyFile { public static void copy(String sourceFile , String

2016-12-23 22:32:13 1305

原创 关于JAVA的selenium安装使用

前言上一篇博客谈到如何使用python的selenium做微博爬虫, 不过该程序只适用于ubuntu系统.本来想在window也用同样的方法做爬虫,结果一个下午都尝试失败,系统总是报”window error”, 估计是python的selenium真的不兼容windows.后来改变了一下思路, 换成了Java的selenium爬虫.结果发现, java的selenium其实也不太复杂.这份博客主要

2016-12-14 12:22:44 3341 1

原创 自然语言处理课程学习总结

概念自然语言处理, 主要是研究如何利用计算机来理解和生成自然语言, 其发展经历了三个阶段, 分别是: Natural language understanding Natural language processing Computational Linguistics 现在的自然语言处理是一个门介乎语言学、计算机科学和认知心理学之间的交叉科学主要应用机器翻译、语言识别与合成、自动

2016-12-13 21:08:48 4132

原创 使用selenium爬取微博内容

前言近来都在与新浪这个大佬在pk。首先是网页爬取新浪微博,遇到的难题是cookie的存活期太慢,一般爬十分钟就over了一个;后来发明了手机版的模拟登录,顺风顺水了一段时间,结果新浪又来一个验证码,被气得半死。无奈手动输入验证码后,再模拟登录。然而不过两个月,新浪哥又开始抓严,搞得手机版的模拟登陆经常登陆不上去。最后实在无办法了,只好真的去“模拟”浏览器实现爬虫了。说道浏览器自动化操作,目前最好用的

2016-12-04 16:12:12 2666

基于改进卡方统计的微博特征提取方法

基于改进卡方统计的微博特征提取方法

2016-02-26

cut命令使用大全

cut命令使用大全

2015-11-10

社会网络分析

社会网络(social network)是由图表示的异构多关系数据集,图中节点对应对象,边对应表示对象间联系或相互作用的链接。过去的几十年间,社会网络受到越来越多的关注。特别是移动网络和互联网的发展,产生了大量的,容易被计算机处理的社会网络数据。从这些数据中获取知识,从而理解商业行为,识别业务模式,捕捉用户行为,更好利用资源,提高服务质量,将成为运营商的核心竞争力之一。

2015-08-27

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除