- 博客(1)
- 资源 (8)
- 收藏
- 关注
Python 入门网络爬虫之精华版
介绍了Python入门网络爬虫的概念精华及技巧。
包括最基本的抓取,对于登陆情况的处理,对于反爬虫机制的处理,对于断线重连,多进程抓取,对于Ajax请求的处理,自动化测试工具Selenium,验证码识别等等
2015-11-18
Python入门网络爬虫之精华版
Python学习网络爬虫主要分3个大的版块:抓取,分析,存储
另外,比较常用的爬虫框架Scrapy,这里最后也介绍一下。
先列举一下相关参考:宁哥的小站-网络爬虫
2015-08-19
文本分类系统
TextClassify文本分类系统适用于中文,英文文本分类。
包括各个文本的关键词输出,可以控制关键词输出个数,也可以对关键词加入黑名单和白名单。
关于TextClassify文本分类系统的改进:
改进jieba中文分词词典
改进黑名单:增加停用词
改进白名单:增加专业词
在TextProcess改进每一类text至多选FileInFolder个:理论上越多越好
deleteN的选取:可以优化
特征词的长度限定:unicode不过长,不过短
特征词词典dict_size的选取:可以优化
特征的改进
多分类结合的算法改进
2014-06-17
Viterbi算法c/c++实现
算法解决的问题:通过观察序列来猜测背后最有可能的隐藏序列。viterbi译码算法是一种卷积码的解码算法。优点不说了。缺点就是随着约束长度的增加算法的复杂度增加很快。
2013-11-25
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人