- 博客(8)
- 资源 (5)
- 收藏
- 关注
原创 文本挖掘之WordCloud+Python3快速生成中英文词云图
引言: “词云”,又称文字云,是由词汇组成类似云的彩色图形。可对网络文本中出现频率较高的“关键词”予以视觉上的突出,形成"关键词云层"或"关键词渲染",从而过滤掉大量的文本信息,使浏览网页者只要一眼扫过文本就可以领略文本的主旨。       &am
2019-03-18 12:21:03 5273
原创 浅谈Python3中的编码解码问题和不同编码间的转换
前言:众所周知,Python的编码解码是一个令人头疼的问题。正好笔者最近做项目时遇到了这个问题,且编码解码问题在大多数语言中都会遇到。遂借此机会重新深入学习一下并写此学习笔记。 在讲编码解码之前,需要先引入几个常用的编码方式,即:ASCII码Unicode码UTF-8码(UTF-16码、UTF-32码…)GB2312码(中文)、Shift_JIS码(日语)、Euc-kr码(韩语...
2019-03-10 17:05:49 1709 2
原创 django数据库报错Table 'xxx' doesn't exist或Unknown table 'xxx'
【问题描述】:笔者在未通过django的ORM删除表前,直接进入数据库进行删表操作。而后再重构此表时报错。manage.py@DataMingingPaper > makemigrations appNamemanage.py@DataMingingPaper > migrate appName 重构并试图删除app/migrations/0001_initial.py及mi...
2019-03-25 18:05:30 5554 2
转载 Excel中COUNTIFS函数统计词频个数出现次数
原文出处:https://www.bbsmax.com/A/GBJrn2QKJ0/ 在Excel中经常需要实现如下需求:在某一列单元格中有不同的词语,有些词语相同,有的不同(如图1所示)。需要统计Excel表格中每个词语出现的个数,即相当于统计词频出现次数。图1. Excel表格统计个数解决方法:采用COUNTIFS函数。COUNTIFS 函数语法及格式:COUNTIFS(c...
2019-03-20 10:48:05 12154
原创 Python3编码解码问题汇总
一、解码问题: ‘utf-8’ codec can’t decode byte 0xa8 in position xx: invalid start byte【问题描述】:笔者通过Python3从数据库(HBase)中取数据的时候,报错如下:报错信息显示,在内置函数转换获取的数据(字节数组)为字符串str时,UTF-8编码方案无法对字节\xa8进行解码,该字节0xa8在当前字节数组的索引是...
2019-03-15 11:11:19 1398
转载 中文停用词表整理(1893个)
原文出处:https://blog.csdn.net/shijiebei2009/article/details/39696571其他停用词整理:https://blog.csdn.net/u010533386/article/details/51458591中文停用词表整理(1893个)!"#$%&'()*+,---..................
2019-03-14 15:10:43 2099
原创 使用Echarts的一些实例(含部分注释)
前言完整代码见我的GitHub,内含CSS和echarts.js,下载可直接使用。效果预览1.单个饼图【代码示例】:<body> <!--2.为ECharts准备一个具备大小(宽高)的DOM--> <div id="pie" class="fream"></div> <script type="
2019-03-08 11:13:33 665
原创 使用Python-3.6连接操作远程完全分布式集群中的HBase-2.1
前提条件已安装Python-3.6。已经有搭建好的完全分布式集群,并已经成功启动Hadoop,Zookeeper和HBase。笔者当前搭建好的集群是Hadoop-3.0.3,Zookeeper-3.4.13和HBase-2.1.0。HostnameIPmaster10.0.86.245ceph110.0.86.246ceph210.0.86.221...
2019-03-02 00:38:40 2739 4
Jclasslib_win64bit
2018-12-03
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人