自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(8)
  • 资源 (8)
  • 收藏
  • 关注

转载 关于文本的Brich层次聚类

1.文本聚类的一般性过程:一般生成文档向量矩阵的格式是,每一行代表一个文档,每一列是一个维度代表该文档这个词的权重,没出现这个词就是0,几千个文件维度在10多w左右(看文档的大小),这么大的维度人脑想也想到了,矩阵将是及其稀疏的,也就是说,在一个高维空间中,几千个点几乎都聚在了一起,虽说彼此之间有距离,但是距离非常之小,很明显这样聚类效果肯定非常差,实测过,跟抛硬币的概率一样。于是将矩阵稠密一...

2019-03-17 22:21:27 2530

转载 Exception in thread "main" java.lang.OutOfMemoryError: Java heap space

Exception in thread "main" java.lang.OutOfMemoryError: Java heap space (Java堆空间内存溢出)解决方案一直都知道可以设置jvm heap大小,一直用eclipse写/调试java程序。一直用命令行or console加参数跑程序。现象:在eclipse的配置文件eclipse.ini中设置-vmargs -Xms500...

2018-11-26 19:32:59 1296

原创 python报错:PyThone field larger than field limit (131072)

 处理问题:PyThone field larger than field limit (131072)文件数据过大,而导致csv无法读取,添加下段代码即可解决import sysmaxInt = sys.maxsizedecrement = Truewhile decrement: decrement = False try: csv.field_...

2018-09-13 20:43:06 3365

原创 python按行或列读取csv文件的方式

方式一:生成字典形式使用DictReader逐行读取csv文件 返回的每一个单元格都放在一个字典的值内,而这个字典的键则是这个单元格的列标题# 逐行读取csv文件with open(filename,'r',encoding="utf-8") as csvfile: reader = csv.DictReader(csvfile) for row in reader...

2018-09-13 20:32:58 49683

转载 python统计文件中出现次数最多的词并排列

统计重复项出现次数: 方法一: List = [1,2,3,4,5,3,2,1,4,5,6,4,2,3,4,6,2,2]  List_set = set(List) #List_set是另外一个列表,里面的内容是List里面的无重复 项  for item in List_set:  print("the %d has found %d" %(item,List.count(item)...

2018-09-12 18:05:36 6123

转载 keras的model.fit()

fit( x, y, batch_size=32, epochs=10, verbose=1, callbacks=None,validation_split=0.0, validation_data=None, shuffle=True, class_weight=None, sample_weight=None, initial_epoch=0)x:输入数据。如果模型只有一个输入,那...

2018-09-09 16:52:57 8460

原创 K-Means聚类算法的实现

前言 本文为我的期末大作业,知识原理参考了他人的文章,并不全是我的想法,有不足之处请指出 。K-均值聚类算法的原理与实现一K-均值聚类算法的原理1.1聚类介绍聚类是一种无监督的学习,它将相似的对象归到同一个簇中,聚类方法几乎可以应用于所有对象,簇内的对象越相似,聚类的效果越好,在现实中我们用到很多的簇的类型,使用不同的簇类型划分数据的结果是不同的,如...

2018-07-11 20:47:15 1871 1

原创 基于Word2Vec的相似度计算(python)

前言 此篇文章的基础知识部分总结了一些别人的文章解释,环境为Windows10下的python3.5版本,需要的包为gensim。代码很简要,不足之处请说明。一.背景知识1.1词向量词向量(word2vec)是一个将单词转换成向量形式的工具。可以把对文本内容的处理简化为向量空间中的向量运算,计算出向量空间上的相似度,来表示文本语义上的相似度。在自然语言处理(NLP...

2018-07-11 13:51:25 45082 7

大学生精美简历模板100套

内含中英文两种类型简历,形式多样,可供选择的类型繁多

2019-04-06

简易聊天程序java

基于C/S端的简易聊天程序,该聊天系统,就是服务器来提供服务端连接响应,客户端主动的发起连接请求。当多个用户同时连接到服务器时,经由服务器的接收与转发便可以实现客户之间的通信。 对于整体系统的流程,也是分为两部分,即客户端的发起请求,服务器响应请求。首先是客户端设置所想要连接的服务器,然后客户端就会根据设置的服务器IP地址,向服务器发起建立连接请求。而服务器端是始终在监听网络状态的,主要检测到有一个连接请求,那么服务器就会给当前的发起端分配一个服务线程,用于处理它的各种请求。 (1)一个服务器与多个客户端,其中服务器负责消息中转。 (2)实现客户端群发消息。 (3)客户端与客户端之间私聊消息。 (4)客户端下线时所有在线用户收到其下线消息,在线列表中不再出现此用户。(客户端下线,通知服务器,服务器转发其下线消息) (5)服务器转发时需要解析用户消息的目的用户,顺带监视了所用用户的聊天记录。 (6)服务器关闭时通知其他用户自动下线,客户机收到服务器关闭信息后自动断开连接,不能发送消息。

2019-03-19

端口扫描器

使用 java程序编写的端口扫描器,设计如下: 1.利用Socket 通信机制实现一个端口扫描器。 2 .用户可以输入IP 地址段以及输入端口号的范围。 3.创建具有缓存功能的线程池对IP地址扫描,判断是否有地址存活。 4. 对存活的IP地址来对端口访问来判断是否是否有端口开放。

2019-03-18

tensorflow实战google深度学习框架 第二版

完整的tensorflow实战google深度学习框架 第二版,电子版,有目录可以快速定位

2019-03-12

k-means程序+数据

程序为python写的k-means算法,以及测试用的数据,将程序与数据放在同一个目录下,即可运行

2018-07-11

MongoChef5.3.0_po

MongoChef 是一款强大的 MongoDB 可视化管理工具,支持 Windows、Linux 和 Mac。

2018-03-13

mongoDB+mongoVUE+rockMongo

MongoDB数据库以及可视化的工具MongoVUE和rockMongo,MongoDB版本在3.0以上的不能选择MongoVUE,否则会出现无法连接到collection的情况

2018-03-13

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除