io-ir
文章平均质量分 84
qq_38425619
这个作者很懒,什么都没留下…
展开
-
Scrapy框架抓取四川大学公共管理学院教师信息
目录项目要求准备步骤代码编写结果分析问题解析相关链接一,项目要求明确目标网址和items:我们要抓取的是四川大学公共管理学院教师主页128位教师信息,包括的item有name(x姓名),title(职称),dep(所属部系),email(邮件),img(图片)以及详情页面的decs(个人简介)明确分页处理的方法明确怎么获取详情页信息会使用xpath来编写数据路径二 , 准备步原创 2017-05-13 15:13:58 · 1052 阅读 · 0 评论 -
Apache Tika格式转换的简单使用
目录Apache Tika介绍Apache Tika实例一Apache Tika实例二Apache Tika实例三相关链接一,Apache Tika介绍Tika是一个内容分析工具,自带全面的parser工具类,能解析基本所有常见格式的文件,得到文件的metadata,content等内容,返回格式化信息。总的来说可以作为一个通用的解析工具。特别对于搜索引擎的数据抓去和处理步骤有重要意义。原创 2017-05-18 12:40:44 · 1545 阅读 · 0 评论 -
分词工具介绍与简单实例
目录ICTCLASIK AnalyzerPaodingMMSEG4JJieba相关链接ICTCLAS1.主要功能包括中文分词;词性标注;命名实体识别;新词识别;同时支持用户词典; 2.ICTCLAS3.0分词速度单机996KB/s,分词精度98.45%,API不超过200KB,各种词典数据压缩后不到3M,是当前世界上最好的汉语词法分析器。 系统平台:Windows 开发语言:C/原创 2017-05-18 19:16:03 · 643 阅读 · 0 评论