自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(4)
  • 资源 (6)
  • 收藏
  • 关注

原创 一起学python-3发现群组-皮尔逊相关系数

这一章,我想了很久,其实我的认知也还是比较肤浅,本文权当抛砖引玉。 前三篇文章里面我们分别抓取了url数据、文章内容、分词生成bigtable,没有解释为什么我们要生成bigtable,而这个是本章需要说明的事情,而介绍人工智能、数据挖掘为什么用矩阵数据,这是一个大坑,就这点目前确实需要一起学习共进,尽量以通俗的语言阐述高深的数据理论知识。 先丢几篇前辈孟岩“矩阵三论”镇一下楼。 https...

2019-05-08 15:02:11 627

原创 一起学python-3发现群组-分词bigtable生成

在前面文章我们已经抓取好了全部的文章内容(一起学python-数据抓取 、一起学python-文章抓取过滤格式 )我们的目标是自动计算出相关性,为了计算相关性,我们的想法用比较常用的方法来实现,即对文章出现词汇的频率来判断文章的相关性,但是对于词语的频率来说,有很多高频词,但是没有实际意义,比如“的”,“逗号”,“句号”,“你”,“我”,“他”等,对于这些高频词汇,我们需要过滤掉,在本文中我们将1...

2018-07-23 17:58:05 209

原创 一起学python-2发现群组-文章抓取过滤格式

接到上页 https://blog.csdn.net/naner3344/article/details/81146518 我们已经把文章清单列表抓取了,接下来我们就是逐一抓取文章 抓取文章内容比上页还要简单些,但是一抓下来发现里面混了很多html标签 这个里面大部分都是html标签, 比较麻烦,尝试了很多种方法去除都不是很好,最后看见别人用正则表达式,试了一下效果很好 patter...

2018-07-23 11:47:47 224

原创 一起学python-1发现群组-数据抓取

      最近在学习群组的发现,如何通过python 代码实现,说下我们的目标,捕获公司内网的5000多篇技术精英大赛的文章,然后对文章进行分词,最后计算出相关性,通过图的形式输出结果,在输出结果前,我们是无法知道文章的相似性,围绕这一目标进行学习。     本次主要是数据的抓取。     目标网站数据源如图 大致有5100篇文章 ,但是一页只有30多篇的样子,然后继续下拉,有个浏览更多 ...

2018-07-21 17:29:55 315

go语言webqq简单实现

go语言webqq简单实现go语言webqq简单实现

2011-11-24

google 实验室 mapreduce论文中英版

mapreduce 是搜索引擎分布式文件处理的思想,许多搜索引擎框架采用这一接口,包括google,yahu

2011-01-03

java web 服务器 源码

用java写的标准web服务器源码实现了大部分 HttpServlet 协议,具有参考价值

2010-12-14

金山卫士20101130开发c源代码

金山卫士20101130开发c源代码,完整的代码,感兴趣的可以学习

2010-12-02

struts2 spring hiberate3 整合 demo

struts2 spring hiberate3 整合 demo

2010-07-27

jfreechart 饼图 折线图 实例

jfreechart ,fusionchart 饼图 折线图 等实例

2010-07-21

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除