【文本分析】(一)

浅浅试一下

import jieba
import jieba.posseg as psg
from collections import Counter
text = '我现在在jupyter notebook上写文本分析的代码!'
cut = jieba.cut(text)
'/'.join(cut)
print(text)

我现在在jupyter notebook上写文本分析的代码!

1.试图将句子最准确的切开,适合文本分析:

words = psg.cut(text)
for word,flag in words:
    print(word,flag)
我 r
现在 t
在 p
jupyter eng
  x
notebook eng
上写 v
文本 n
分析 vn
的 uj
代码 n
! x

2.把句子中所有可以组成词的词语都扫描出来,速度快,但不能解决歧义:

'/'.join(jieba.cut(text,True))

‘我/现在/在/jupyter// //notebook/上/写/文本/本分/分析/的/代码/!’

数据采集在这里插入图片描述

在这里插入图片描述

import jieba
import jieba.analyse

# 待分词的文本路径
sourceTxt = r"C:\Users\83854\Documents\shujvji\news1.txt"
# 分好词后的文本路径
targetTxt = r"C:\Users\83854\Documents\shujvji\fenci1.txt"

# 对文本进行操作
with open(sourceTxt, 'r', encoding = 'utf-8') as sourceFile, open(targetTxt, 'a+', encoding = 'utf-8') as targetFile:
    for line in sourceFile:
        seg = jieba.cut(line.strip(), cut_all = False)
        # 分好词之后之间用空格隔断
        output = ' '.join(seg)
        targetFile.write(output)
        targetFile.write('\n')
    prinf('写入成功!')

# 提取关键词
with open(targetTxt, 'r', encoding = 'utf-8') as file:
    text = file.readlines()
    """
    几个参数解释:
        * text : 待提取的字符串类型文本
        * topK : 返回TF-IDF权重最大的关键词的个数,默认为20个
        * withWeight : 是否返回关键词的权重值,默认为False
        * allowPOS : 包含指定词性的词,默认为空
    """
    keywords = jieba.analyse.extract_tags(str(text), topK = 10, withWeight=True, allowPOS=())
    print(keywords)
	print('提取完毕!')


import jieba

import jieba
import re

#打开要处理的文章
reader = open( r"C:\Users\83854\Documents\shujvji\news1.txt",'r',encoding='utf8')
strs =reader.read()
result = open( r"C:\Users\83854\Documents\shujvji\fenci1.txt","w")

# 分词,去重,列表
word_list = jieba.cut(strs,cut_all=True)
# 正则表达式去除数字,符号,单个字
new_words = []
for i in word_list:
    m = re.search("\d+",i)
    n = re.search("\W+",i)
    if not m and  not n and len(i)>1:
        new_words.append(i)

# 统计词频
word_count = {} # 创建字典
for i in set(new_words): # 用set去除list中的重复项
    word_count[i] = new_words.count(i)

# 格式整理
list_count = sorted(word_count.items(),key=lambda co:co[1],reverse=True)

# 打印结果
for i in range(300):
    print(list_count[i],file=result)

#关闭文件
reader.close()
result.close()

在这里插入图片描述

  • 0
    点赞
  • 3
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
课程概述教会学员快速学会python数据分析,覆盖python基础,pandas,seaborn,matplotlib,SQL,sqlite,lambda等知识。课程是数据科学家居家必备的军火库。课程定期更新,大部分视频分辨率支持2K超清,学员可以看清每一行代码。 适合人群python数据科学从业人员,数据分析师,统计 学习计划和方法1.每天保证1-2个小时学习时间,预计7-15天左右可以学习完整门课程(不同基础学生时间差异较大)。2.每节课的代码实操要保证,建议不要直接复制粘贴代码,自己实操一遍代码对大脑记忆很重要,有利于巩固知识。3.第二次学习时要总结上一节课内容,必要时做好笔记,加深大脑理解。4.不懂问题要罗列出来,先自己上网查询,查不到的可以咨询老师。 作者介绍Toby,持牌照金融公司担任模型验证专家,国内最大医药数据中心数据挖掘部门负责人!和清华大学出版社,重庆儿科医院,中科院教授,赛柏蓝保持慢病数据挖掘项目合作!管理过欧美日中印巴西等国外药典数据库,马丁代尔数据库,FDA溶解度数据库,临床试验数据库,WHO药物预警等数据库。原创公众号(python风控模型) 课程概述教会学员快速学会python数据分析,覆盖python基础,pandas,seaborn,matplotlib,SQL,sqlite,lambda等知识。课程是数据科学家居家必备的军火库。课程定期更新,大部分视频分辨率支持2K超清,学员可以看清每一行代码。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值