2016年12月_Quincy1994

12月 11月 10月 09月 08月 07月 05月 03月 02月

原创 lucene的代码示范

import java.io.BufferedReader;import java.io.File;import java.io.FileReader;import java.io.IOException;import java.nio.file.FileSystems;import org.apache.lucene.analysis.Analyzer;import org.apache

2016-12-24 15:05:53 429

原创 java实现文件夹的拷贝

import java.io.File;import java.io.FileInputStream;import java.io.FileNotFoundException;import java.io.FileOutputStream;public class CopyFile { public static void copy(String sourceFile , String

2016-12-23 22:32:13 1305

前言上一篇博客谈到如何使用python的selenium做微博爬虫, 不过该程序只适用于ubuntu系统.本来想在window也用同样的方法做爬虫,结果一个下午都尝试失败,系统总是报”window error”, 估计是python的selenium真的不兼容windows.后来改变了一下思路, 换成了Java的selenium爬虫.结果发现, java的selenium其实也不太复杂.这份博客主要

2016-12-14 12:22:44 3341 1

原创自然语言处理课程学习总结

概念自然语言处理, 主要是研究如何利用计算机来理解和生成自然语言, 其发展经历了三个阶段, 分别是: Natural language understanding Natural language processing Computational Linguistics 现在的自然语言处理是一个门介乎语言学、计算机科学和认知心理学之间的交叉科学主要应用机器翻译、语言识别与合成、自动

2016-12-13 21:08:48 4132

原创使用selenium爬取微博内容

前言近来都在与新浪这个大佬在pk。首先是网页爬取新浪微博，遇到的难题是cookie的存活期太慢，一般爬十分钟就over了一个；后来发明了手机版的模拟登录，顺风顺水了一段时间，结果新浪又来一个验证码，被气得半死。无奈手动输入验证码后，再模拟登录。然而不过两个月，新浪哥又开始抓严，搞得手机版的模拟登陆经常登陆不上去。最后实在无办法了，只好真的去“模拟”浏览器实现爬虫了。说道浏览器自动化操作，目前最好用的

2016-12-04 16:12:12 2666

基于改进卡方统计的微博特征提取方法

2016-02-26

cut命令使用大全

2015-11-10

社会网络分析

社会网络（social network）是由图表示的异构多关系数据集，图中节点对应对象，边对应表示对象间联系或相互作用的链接。过去的几十年间，社会网络受到越来越多的关注。特别是移动网络和互联网的发展，产生了大量的，容易被计算机处理的社会网络数据。从这些数据中获取知识，从而理解商业行为，识别业务模式，捕捉用户行为，更好利用资源，提高服务质量，将成为运营商的核心竞争力之一。

2015-08-27

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

qq_30843221的博客

原创 lucene的代码示范

原创 java实现文件夹的拷贝

原创关于JAVA的selenium安装使用

原创自然语言处理课程学习总结

原创使用selenium爬取微博内容

基于改进卡方统计的微博特征提取方法

cut命令使用大全

社会网络分析

空空如也

原创 lucene的代码示范

原创 java实现文件夹的拷贝

原创 关于JAVA的selenium安装使用

原创 自然语言处理课程学习总结

原创 使用selenium爬取微博内容

基于改进卡方统计的微博特征提取方法

cut命令使用大全

社会网络分析

空空如也

原创关于JAVA的selenium安装使用

原创自然语言处理课程学习总结

原创使用selenium爬取微博内容