自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(6)
  • 收藏
  • 关注

转载 C++语言实现中文的ac自动机

#include #include #include #include #include #include #include #include using namespace std;#define VISIBLE_NUMBER 224//定义节点结构struct StateNode {bool finish_{false};int state_{0};int num_{0};string pattern_{};//goto tablevector<StateNod.

2021-06-11 09:53:24 630 2

原创 SimHash算法----海量数据如何根据文本内容快速找到相似文本原理及案例

SimHash算法----海量数据如何根据文本内容快速找到相似文本原理及案例SimHash算法原理转载自:https://blog.csdn.net/Daverain/article/details/80919418一、什么是SimHashSimHash算法是Google在2007年发表的论文《Detecting Near-Duplicates for Web Crawling》中提到的一种...

2020-04-30 14:54:02 2776

原创 用户画像(2)使用keras框架搭建神经网络模型

import pickleimport pandas as pdimport tensorflow as tfimport numpy as npimport matplotlib.pyplot as pltfrom keras import backend as Kfrom keras.models import Modelfrom keras.layers import Dens...

2018-09-19 10:24:29 916

原创 用户画像(1)使用sikuquanshu的中文词向量

import numpy as npimport pickleimport matplotlib.pyplot as pltfrom sklearn.preprocessing import OneHotEncoder,LabelEncoder从整个训练集数据集中抽取部分数据作为训练模型的训练集数据和测试集数据,并且指定要使用的目标变量def input_data(train_file,...

2018-09-19 10:23:07 438

原创 安装spark的详细步骤

1.下载spark的地址 http://spark.apache.org/downloads.html2.把下载好的压缩包拖拽到虚拟机的桌面3.把压缩包移动到/opt目录下 mv spark-2.3.1-bin-hadoop2.7.tgz /opt 4. 解压 tar -zxvf spark-2.3.1-bin-hadoop2.7.t...

2018-08-07 16:22:35 40723 3

原创 Hadoop配置无密码登陆

定义列表减价额外 python @requires_authorization DEF somefunc(参数1 ='',参数2 = 0):'''文档字符串''',如果参数1&amp;amp;gt; param2的: #有趣打印'大'返回(参数2 - 参数1 + 1)无或类SomeClass的的:通过&amp;amp;gt;&amp;amp;gt;&amp;amp;gt...

2018-08-06 10:06:22 1862

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除