jieba分析mysql_从Mysql中取出数据并用jieba统计词频

最新推荐文章于 2021-03-13 17:24:37 发布

马赛不克

最新推荐文章于 2021-03-13 17:24:37 发布

阅读量291

点赞数

文章标签： jieba分析mysql

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/weixin_42347357/article/details/114720211

版权

本文介绍了如何使用pymysql连接MySQL数据库获取数据，并结合jieba库进行分词，统计词频。通过Python代码展示了一个简单的数据库查询及jieba词频分析的过程，展示了从数据库中取出数据并进行文本分析的方法。

摘要由CSDN通过智能技术生成

1、导入pymysql库和jieba库

这里使用的是中科大的镜像，很快。

安装jieba库同理。

2、编写代码

# -*- coding: utf-8 -*-

# @Time: 2020/8/25 19:24

# @Author: fanlumaster

# @File: douban.py

# @Software: PyCharm

import pymysql

import jieba

# 连接数据库

db = pymysql.connect(host='127.0.0.1', port=3306, user='root', password='123456', db='douban', charset='utf8')

cursor = db.cursor()

# 测试，打印一下mysql版本

cursor.execute("select version()")

data = cursor.fetchone()

print("Database Version:%s" %data)

# 执行查询语句

sql = 'select * from posts'

cursor.execute(sql)

result = cursor.fetchall()

# 开始打印

print("开始打印")

i = 1

str = ""

for res in result:

print(i)

# print(res[5])

str += res[5]

i = i + 1

# print(res)

print(str)

cursor.close()

# 开始用jieba统计词频

words = jieba.lcut(str)

counts = {}

for word in words:

if len(word) == 1: # 排除单个字符的分词结果

continue

else:

counts[word] = counts.get(word, 0) + 1 # 这里的0表示如果word这个键不在字典中，就添加这个键，并且默认为0，如果加上后面的1，就合理了

items = list(counts.items())

items.sort(key=lambda x:x[1], reverse=True) # 以出现的次数为标准，从大到小

for i in range(100):

word, count = items[i]

print("{0:<10}{1:>5}".format(word, count))

mysql的数据库是之前用Java从豆瓣的小组爬取下来的一个小组的帖子，这里只是去除了主帖的数据。

有一说一，数据有14000多条，大概十几mb的样子，所以jieba执行起来还怪慢的。

运行结果：

数据库：

标签：jieba,word,res,pymysql,cursor,词频,Mysql,print

来源： https://www.cnblogs.com/fanlumaster/p/13569110.html

关注

0
点赞
踩
2

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。