![](https://img-blog.csdnimg.cn/20201014180756738.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
python
文章平均质量分 86
qq_38425619
这个作者很懒,什么都没留下…
展开
-
Scrapy框架抓取四川大学公共管理学院教师信息
目录 项目要求 准备步骤 代码编写 结果分析 问题解析 相关链接 一,项目要求 明确目标网址和items:我们要抓取的是四川大学公共管理学院教师主页128位教师信息,包括的item有name(x姓名),title(职称),dep(所属部系),email(邮件),img(图片)以及详情页面的decs(个人简介) 明确分页处理的方法 明确怎么获取详情页信息 会使用xpath来编写数据路径 二 , 准备步原创 2017-05-13 15:13:58 · 1037 阅读 · 0 评论 -
分词工具介绍与简单实例
目录 ICTCLAS IK Analyzer Paoding MMSEG4J Jieba 相关链接 ICTCLAS1.主要功能包括中文分词;词性标注;命名实体识别;新词识别;同时支持用户词典; 2.ICTCLAS3.0分词速度单机996KB/s,分词精度98.45%,API不超过200KB,各种词典数据压缩后不到3M,是当前世界上最好的汉语词法分析器。 系统平台:Windows 开发语言:C/原创 2017-05-18 19:16:03 · 628 阅读 · 0 评论 -
IO & IR 个人作业汇总——康熙
目录 一, 信息组织读后感 (1)ICT环境下信息组织的任务与挑战——元数据的管理 二, 爬虫报告 (1) robots协议分析—-以淘宝为例 (2) Python数据采集 - quotes (3) Scrapy框架抓取四川大学公共管理学院教师信息 (4) 八爪鱼爬取网页数据的简单使用 三, 分词报告 (1)分词工具介绍与简单实例 四, 文本解析报告 (1)Apache Tika格式转原创 2017-06-24 23:23:41 · 1827 阅读 · 0 评论