自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+

原创 商品搜索-特征处理(实例)

这是在排序时拿到的所有数据 {"sort_feature_u_":"{\"u_uid\":25872428,\"u_age\":0,\"vip_status\":1,\"u_r_gender\&...

2020-01-01 23:14:36 43 0

原创 Word2Vec计算相似文章

第一步:得到用户帖子的点击日志。 from pyspark.sql.types import BooleanType,LongType from scipy.stats import norm, t from pyspark.sql import SparkSession, DataFrame...

2020-05-09 15:37:10 29 0

原创 TF-IDF计算相似文章

%spark_recommend.pyspark from pyspark.sql.types import BooleanType,LongType from scipy.stats import norm, t from pyspark.sql import SparkSession, Dat...

2020-04-27 23:36:14 31 0

原创 ItemCF-jaccard相似度计算相似item

from pyspark.sql import SparkSession, functions as F import heapq from pyspark.sql.types import StructType, StructField, LongType,FloatType, ArrayTyp...

2020-04-09 02:04:16 116 0

原创 合并两个有序链表

非递归: /** * 用一个遍历来装排好序的链表,和一个遍历记录最其实的位置。 * @param l1 * @param l2 * @return */ public static ListNode mergeTwoLists...

2020-01-16 23:24:07 12 0

原创 中心极限定理实践

呈任意分布的样本,进行m次抽样,每次取n个。这m次抽样的平均值接近正态分布。 下面我们验证一下: 数据:用户粉丝数 我们有约100w用户的信息,我们只关注用户的粉丝数这个字段。毫无疑问用户的粉丝数都是长尾分布,如图: import pandas as pd import ran...

2020-01-12 13:11:02 22 0

原创 ElasticSearch-分组取top n(TopHits)

需求搜索“双眼皮”的所有商品,按照机构聚合降序min_price降序,每个机构显示按取价格高的Top 3。 查询语句: { "query":{ "match":{ "title":&q...

2020-01-02 20:42:02 466 0

原创 ElasticSearch-对象类型和嵌套(nested)对象

一、对象类型 使用json、json数组作为字段值,动态映射会默认使用对象类型(type object)。 1.1字段值为json对象 POST users/users/1 { "name":"王月", "descripti...

2019-12-28 19:11:12 174 0

原创 ElasticSearch-别名用法

别名的意义:索引的别名就像域名域名一样,例如百度的域名是www.baidu.com,但是你并不知道这个域名对应的是哪个ip,能翻遍我们切换索引。 查看索引:GET _cat/indices(查看所有索引) 查看别名:GET _cat/aliases(查看所有别名和别名与索引的对应关系) ...

2019-12-28 14:53:29 35 0

原创 LR模型-商品搜索实战

一个请求都已一个唯一标识字段,这样我们能拿到,这个请求曝光了哪些商品,点击了哪些商品,这个请求发生那一刻的特征。 %spark_recommend.pyspark import pandas as pd from pyspark.ml.feature import VectorAssemble...

2019-10-07 14:52:39 58 0

原创 机器学习-LR模型

LR模型,理解成一个线性方程:如果只有一个特征:也就是y=ax+b,如果有两个特征也就是y=ax1+bx2+c 这里我们根据 距海边的距离 预测 城市的最高温度。 from sklearn.linear_model import LinearRegression import numpy a...

2019-08-10 18:31:58 250 0

原创 栈排序-O(1)空间复杂度(猎聘网)

有两个栈a和b。栈a中数据是无序,栈b无数据。现在需要把a中的数据移动到b,并且最后b是有序的(栈顶最小)。要求:空间复杂度为O(1). private static void fun(Stack<Integer> a, Stack<Integer> b) { ...

2019-04-03 13:54:55 135 0

原创 [mysql]分组取Top n、最近一条

一直没有时间写分享,终于等到双十一,任何需求都不准上,这才抽出时间整理一下搜集了好几天的SQL。   需求:查出用户最近一条登录记录。(110w条) 前提:默认时间和id都是递增。(求时间最大-&gt;求id最大) 第一种:select * from user_login_log...

2018-11-10 19:26:50 4323 6

原创 SpringBoot 通过注解封装API

包装前: {"name":"王月","age":0} 包装后: {"status":{"code":0,"name":"OK","msg&...

2018-08-16 15:34:00 1092 0

原创 mysql隔离级别

事务并发的三种问题:脏读:读取了别的事务未提交的数据。 不可重复读:你读取过的数据 , 再次读取出来被人改了。 幻读:同一个事务,第1次和第2次读出来的记录数不一样。mysql四种隔离级别:●读未提交READ_UNCOMMITTED 写事务阻止写,但是没有阻止读。会出现脏读、不可重复读、幻读。 ●...

2018-04-19 15:45:23 112 0

原创 【sql】exists的用法,exists与in的区别

一直以来很少用exists,以为和in用法一样,最近一看才发现,that is not the case!exists用法强调的是子查询是否有返回集,不需知道具体返回的是什么,如果有就显示主查询的内容,没有就不显示。因此,子查询中select *和select 任意字段 效果是一样的,如下:SEL...

2018-04-10 10:49:55 206 0

原创 Mac电脑下,搭建三台Hadoop集群

集群: Mac:172.16.122.1 Master:172.16.122.101 Slave1:172.16.122.102 Slave2:172.16.122.101 第一步、安装CentOS7 第二步、安装GUI:命令yum install NetworkManager-tui...

2018-03-26 16:13:53 2578 0

原创 Django配置haystack、Woosh或ElasticSearch、jieba

不多说直接上代码 项目名:first    app名称:info 目录结构: 项目setting.py: INSTALLED_APPS = ( 'django.contrib.admin', 'django.contrib.auth...

2018-02-04 06:45:50 1359 0

原创 从零到启动Django+mysql项目【Windows版】

话不多说,在mac下安装很轻松,换了台电脑大概花了得4 5个小时,知道我成功启动项目。 环境:python2.7+mysql5.7+pycharm+Django+win7x64+pip工具 目标:在pycharm成功启动一个连接mysql数据库的Django项目 ①安装python2.7...

2018-01-20 13:50:53 2337 0

原创 双硬盘装Window+Ubuntu

如果你是只有一个硬盘,那你直接按照如下文档安装即可, 注意两点: ①在安装Ubuntu时选择的时候要注意,选自定义自盘空间,我选了错,直接把我第一个ssd的东西全部给格式化了。 ②在选择[安装启动引导器的设备]时,要选择刚刚挂/boot对应的分区。不然会报错【无法将GRUB安装到/dev/s...

2018-01-07 17:49:24 114 0

原创 如何在Idea一个窗口打开多个项目

首先要知道idea和eclipse中的“项目”概念不同。Idea的项目等同于eclipse中的workspace。Idea的module等同于eclipse中的project。所以我们要实现的是:在一个项目倒入多个module。 ①   创建新的空白项目,并修改项目的路径(相当于创建了一个空文件...

2018-01-03 09:33:46 40622 10

提示
确定要删除当前文章?
取消 删除