- 博客(5)
- 资源 (3)
- 收藏
- 关注
原创 lucene的代码示范
import java.io.BufferedReader;import java.io.File;import java.io.FileReader;import java.io.IOException;import java.nio.file.FileSystems;import org.apache.lucene.analysis.Analyzer;import org.apache
2016-12-24 15:05:53 429
原创 java实现文件夹的拷贝
import java.io.File;import java.io.FileInputStream;import java.io.FileNotFoundException;import java.io.FileOutputStream;public class CopyFile { public static void copy(String sourceFile , String
2016-12-23 22:32:13 1305
原创 关于JAVA的selenium安装使用
前言上一篇博客谈到如何使用python的selenium做微博爬虫, 不过该程序只适用于ubuntu系统.本来想在window也用同样的方法做爬虫,结果一个下午都尝试失败,系统总是报”window error”, 估计是python的selenium真的不兼容windows.后来改变了一下思路, 换成了Java的selenium爬虫.结果发现, java的selenium其实也不太复杂.这份博客主要
2016-12-14 12:22:44 3341 1
原创 自然语言处理课程学习总结
概念自然语言处理, 主要是研究如何利用计算机来理解和生成自然语言, 其发展经历了三个阶段, 分别是: Natural language understanding Natural language processing Computational Linguistics 现在的自然语言处理是一个门介乎语言学、计算机科学和认知心理学之间的交叉科学主要应用机器翻译、语言识别与合成、自动
2016-12-13 21:08:48 4132
原创 使用selenium爬取微博内容
前言近来都在与新浪这个大佬在pk。首先是网页爬取新浪微博,遇到的难题是cookie的存活期太慢,一般爬十分钟就over了一个;后来发明了手机版的模拟登录,顺风顺水了一段时间,结果新浪又来一个验证码,被气得半死。无奈手动输入验证码后,再模拟登录。然而不过两个月,新浪哥又开始抓严,搞得手机版的模拟登陆经常登陆不上去。最后实在无办法了,只好真的去“模拟”浏览器实现爬虫了。说道浏览器自动化操作,目前最好用的
2016-12-04 16:12:12 2666
社会网络分析
2015-08-27
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人