jieba安装
pip install jieba
详情参考官网项目地址
数据集
提供一份来自搜狐网的数据集(移动端网页更好爬),这里
使用bz2格式保存速度和大小较为均衡,通过pandas读入。
df = pd.read_pickle(YOUR_PATH)
使用jieba分词
要使用不同模式参考官网文档这里给出个示例,对content列进行默认模式中文分词,并去掉标点符号
import jieba.posseg as pseg
def content100_to_word(line):
try:
gen = pseg.cut(line[:100]) #对字符串前一百分词
except:
return ""
words = []
for