专注网络爬虫、数据挖掘、机器学习方向。
个人网站:http://www.lining0806.com/
私信
关注
宁仔好忙
码龄10年
个人网站 http://www.lining0806.com/
5,493
被访问量
1
原创文章
538,436
作者排名
9
粉丝数量
于
2011-07-05
加入CSDN
获得成就
获得
2
次点赞
内容获得
1
次评论
获得
9
次收藏
荣誉勋章
所有勋章
TA的专栏
Python
1篇
爬虫
1篇
最近
文章
资源
问答
课程
帖子
收藏
关注/订阅
Python 入门网络爬虫之精华版
介绍了Python入门网络爬虫的概念精华及技巧。 包括最基本的抓取,对于登陆情况的处理,对于反爬虫机制的处理,对于断线重连,多进程抓取,对于Ajax请求的处理,自动化测试工具Selenium,验证码识别等等
Python入门网络爬虫之精华版
Python学习网络爬虫主要分3个大的版块:抓取,分析,存储 另外,比较常用的爬虫框架Scrapy,这里最后也介绍一下。 先列举一下相关参考:宁哥的小站-网络爬虫
Python入门网络爬虫之精华版
Python入门网络爬虫之精华版Python学习网络爬虫主要分3个大的版块:抓取,分析,存储
文本分类系统
TextClassify文本分类系统适用于中文,英文文本分类。 包括各个文本的关键词输出,可以控制关键词输出个数,也可以对关键词加入黑名单和白名单。 关于TextClassify文本分类系统的改进: 改进jieba中文分词词典 改进黑名单:增加停用词 改进白名单:增加专业词 在TextProcess改进每一类text至多选FileInFolder个:理论上越多越好 deleteN的选取:可以优化 特征词的长度限定:unicode不过长,不过短 特征词词典dict_size的选取:可以优化 特征的改进 多分类结合的算法改进
文本分词系统
包含最新的分词系统,C/C++开发,提供调用接口
Python版FAQ
Python的学习资料。包括一些下载的资源链接。
Viterbi算法c/c++实现
算法解决的问题:通过观察序列来猜测背后最有可能的隐藏序列。viterbi译码算法是一种卷积码的解码算法。优点不说了。缺点就是随着约束长度的增加算法的复杂度增加很快。
Ubuntu 命令大全
讲述Ubuntu操作系统的命令,便于查询。是linux开发不可缺少的工具。
鸟哥的私房菜
详细讲述了linux的知识,包括如何入门,从低手到高手。初学者的必备!