python分类信息网_web-classify 用于网页分类的python工具包

最新推荐文章于 2022-09-09 11:45:37 发布

weixin_39906878

最新推荐文章于 2022-09-09 11:45:37 发布

阅读量144

点赞数

文章标签： python分类信息网

本文链接：https://blog.csdn.net/weixin_39906878/article/details/111417557

版权

mypack是一个用于网页分类的Python工具包，集成了ictclas、BeautifulSoup、libsvm等，提供中文分词、HTML处理、文本分类等功能。包括预处理、TF-IDF计算、 SVM预测等，用于文本特征选择和模型训练。同时，mypack还包含网页内容提取功能。

摘要由CSDN通过智能技术生成

本工具包将一些常用的网页分类不同语言的相关开源软件，如ictclas，BeautifulSoup，libsvm等进行封装组合，以方便用python进行网页分类相关程序的开发。

# uitl:一些常用的开源软件包 ## ictclas:中文分词，包含词频统计，关键词提取，指纹提取等功能。不同的机器上使用，需要重新编译。

## ictclas.py:我对ictclas的python封装(其实就是简单的用python调用ictclas)使用说明： from mypack.util.ictclas import ICTclas ic = ICTclas( text ) ic.finger() #返回text的指纹 ic.words() #返回list:[(word,num),(word,num),...]

## smallseg:一个轻量级开源python分词程序使用说明： from mypack.util.smallseg.myseg import seg word_nums = seg( text ) #返回list:[(word,num),(word,num),...]

## htmlproc:一些常用的html处理程序

### chardet 自动编码检测与转换

### parser.py 对以上两个的封装使用说明: pr = Parser()if pr.parse( url ):print pr.get_html() #返回网页的html格式 print pr.get_text().encode('utf-8') #返回网页中的字符串

### crawl.py 使用pycurl的单个网页爬取程序,由于pycurl速度并不比urllib快，所以没啥用

# classify:文本分类模块说明

## preprocess

### ch

最低0.47元/天解锁文章

weixin_39906878

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
python分类信息网_web-classify 用于网页分类的python工具包

本工具包将一些常用的网页分类不同语言的相关开源软件，如ictclas，BeautifulSoup，libsvm等进行封装组合，以方便用python进行网页分类相关程序的开发。# uitl:一些常用的开源软件包 ## ictclas:中文分词，包含词频统计，关键词提取，指纹提取等功能。不同的机器上使用，需要重新编译。## ictclas.py:我对ictclas的python封装(其实就是简单的用p...
复制链接

扫一扫