Python 数据挖掘小结

最新推荐文章于 2024-05-29 14:10:12 发布

guaguastd

最新推荐文章于 2024-05-29 14:10:12 发布

阅读量972

点赞数

分类专栏： # PYTHON 文章标签：数据挖掘

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/guaguastd/article/details/44033295

版权

PYTHON 专栏收录该内容

307 篇文章 5 订阅

订阅专栏

1. 频率分析

from prettytable import PrettyTable
from collections import Counter
for label, data in (('Word', words),('Screen Name', screen_names),('Hashtag', hashtags)):
    pt = PrettyTable(field_names=[label, 'Count'])
    c = Counter(data)
    [ pt.add_row(kv) for kv in c.most_common()[:10] ]
    pt.align[label], pt.align['Count'] = 'l', 'r' # Set column alignment
    print pt

2. 词汇多样性

# A function for computing lexical diversity
def lexical_diversity(tokens):
    return 1.0*len(set(tokens))/len(tokens)

# A function for computing the average number of words per tweet
def average_words(statuses):
    total_words = sum([ len(s.split()) for s in statuses ])
    return 1.0*total_words/len(statuses)

3. 可视化处理

for label, data in (('Words', words),('Screen Names', screen_names),('Hashtags', hashtags)):
    # Build a frequency map for each set of data
    # and plot the values
    c = Counter(data)
    plt.hist(c.values())
    # Add a title and y-label ...
    plt.title(label)
    plt.ylabel("Number of items in bin")
    plt.xlabel("Bins (number of times an item appeared)")
    # ... and display as a new figure
    plt.show()

4. 聚类分析

a. 数据清理
b. 相似性度量

5. 信息检索

a. TF-IDF
b. 余弦相似性
c. 词汇搭配检测

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
Python 数据挖掘小结

1. 频率分析from prettytable import PrettyTablefrom collections import Counterfor label, data in (('Word', words),('Screen Name', screen_names),('Hashtag', hashtags)): pt = PrettyTable(field_names=
复制链接

扫一扫

专栏目录

guaguastd CSDN认证博客专家 CSDN认证企业博客

码龄12年

133: 原创

3万+: 周排名

189万+: 总排名

97万+: 访问

: 等级

1万+: 积分

212: 粉丝

82: 获赞

35: 评论

256: 收藏

私信

关注

热门文章

分类专栏

最新评论

Python 实现简单的加减算数游戏
华泽小勇: 如何加界面呢
[视觉工程]以图搜图之搜索策略(bf,kdTree,ballTree,annoy,nms,falconn)
韩国麦当劳: 大佬，您好，我想问一下你的falconn是怎么装的？我用pip安装老是报错 [code=plain] Looking in indexes: https://pypi.tuna.tsinghua.edu.cn/simple Collecting FALCONN Using cached https://pypi.tuna.tsinghua.edu.cn/packages/96/b8/0d2c629d59398a7b3ed8726ce049abf6746bbf09d1ad15878d4fcf8048a6/FALCONN-1.3.1.tar.gz (1.4 MB) Preparing metadata (setup.py) ... done Building wheels for collected packages: FALCONN Building wheel for FALCONN (setup.py) ... error error: subprocess-exited-with-error × python setup.py bdist_wheel did not run successfully. │ exit code: 1 ╰─> [17 lines of output] running bdist_wheel running build running build_py creating build creating build\lib.win-amd64-3.7 creating build\lib.win-amd64-3.7\falconn copying falconn\__init__.py -> build\lib.win-amd64-3.7\falconn running egg_info writing FALCONN.egg-info\PKG-INFO writing dependency_links to FALCONN.egg-info\dependency_links.txt writing top-level names to FALCONN.egg-i [/code]
[GAN实战] DCGAN实现
weixin_53799925: 请问网络深度对gan有什么影响？如果使用一些卷积网络里的module会对gan有比较大的作用么
Python 使用递归打印输出数字（逆序和顺序）
豆汁泡纳豆: 醍醐灌顶
Python 正则表达式将纯文本转化为HTML格式
Tisfy: 正想看这样的文章，就遇到了它

您愿意向朋友推荐“博客详情页”吗？

强烈不推荐
不推荐
一般般
推荐
强烈推荐

提交

最新文章

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。