- 博客(24)
- 收藏
- 关注
原创 hive合并数组
hive合并数组将上图中红框的两个数组合并为一个数组并去重,也就是同一个productid对应的city_tags和hotel_tags取并集第一步,先将数组中的数据全部取出来 使用LATERAL VIEW、explode 2个函数,可以实现把一个array类型的值分开SELECT t.productID, t.cityID,t.airlineCode,t.hotelID,tagv FROM (SELECT productID, cityID,airlineCode,hotelID, ta
2020-08-06 19:39:19 11222
原创 python科学计算--核心工具包一瞥(三)anaconda3安装pymysql
1.打开anaconda自带的prompt2.进入anaconda暗转目录下的scripts文件下3.执行pip install pymysql
2020-07-06 14:34:52 705 1
原创 前端开发——小白踩坑记
踩坑经历一两个页面来回切换时前端请求一直处于pending状态,不能及时返回数据,最终造成请求阻塞,请求失败。一开始以为是因为接口出了问题,但是用postman测试接口,一切正常,数据库也没问题,后面查了很多资料,有一篇文章给我提了醒可查看该文章,可能是某个请求花费了大量的时间,后来就发现原来我的前端一直没有图标,而每次在页面切换的时候,浏览器都会默认发送一个请求获取一次网页图标,这个不是前端业务逻辑主动调用的XHR请求,但对于后端来说也是一次GET请求。请求不到图标就会一直pending,所以顺着这
2020-06-24 10:41:20 1880
原创 python常用函数及方法解释
1.sort()描述: sort() 函数用于对原列表进行排序,如果指定参数,则使用比较函数指定的比较函数。语法: list.sort( key=None, reverse=False)key -- 主要是用来进行比较的元素,只有一个参数,具体的函数的参数就是取自于可迭代对象中,指定可迭代对象中的一个元素来进行排序。reverse -- 排序规则...
2020-03-25 09:49:06 590
转载 urllib.parse模块使用
url.parse :定义了url的标准接口,实现url的各种抽取parse模块的使用:url的解析,合并,编码,解码使用时需导入:from urllib import parseurlparse()实现URL的识别和分段url = 'https://book.qidian.com/info/1004608738?wd=123&page=20#Catalog'"""u...
2020-03-18 10:55:42 231
原创 系统推荐笔记——第三章_推荐系统冷启动问题
目录一、利用用户注册信息二、选择合适的物品启动用户的兴趣三、利用物品的内容信息(参考LiuQQu文章,本章为CSDN博主「LiuQQu」的原创文章)四、发挥专家作用冷启动问题主要分为3类。用户冷启动 用户冷启动主要解决如何给新用户做个性化推荐问题,当新用户到来时,我们没有他的行为数据,所以也没办法根据他的历史行为预测兴趣,从而无法借此给他做个性化推荐。 物品冷启动 物品冷...
2020-01-17 13:42:10 366
原创 推荐系统实践笔记——第二章_利用用户行为数据
目录一、用户行为数据简介二、用户行为分析三、实验设计四、基于邻域的算法五、隐语义模型(参考LiuQQu的博客,版权声明:本文为CSDN博主「LiuQQu」的原创文章)六、基于图的模型(参考LiuQQu的博客,版权声明:本文为CSDN博主「LiuQQu」的原创文章)基于用户行为分析的推荐算法是个性化推荐系统的重要算法,学术界一般将这类型的算法称为协同过滤算法。一、用户...
2020-01-16 11:32:22 535
原创 推荐系统实践笔记——第一章_好的推荐系统
目录一、什么是推荐系统及推荐系统的任务:二、推荐系统的应用三、推荐系统评测一、什么是推荐系统及推荐系统的任务:推荐系统的任务就是联系用户和信息(物品),一方面帮助用户发现对自己有价值的信息(或称感兴趣的物品),另一方面能够让信息(物品)能够展现在对它感兴趣的用户面前。从而实现用户与信息(物品)之间的双赢。 推荐系统与搜索引擎的区别在于,推荐紫铜不需要用户有明确的需求...
2020-01-13 14:45:46 369
原创 用户复购周期计算
用户复购周期(两次购买之间的时间间隔)一、首先使用SQL进行计算注:用户在一天中发生多次购买则只记为1次购买。1.根据用户id与购买日期进行分组,将一天内发生多次消费记录进行合并。DROP TABLE member_Repurchase_cycle_01;CREATE TABLE member_Repurchase_cycle_01ASSELECT * FROM member_Rep...
2019-10-11 11:25:48 7661
原创 产品转化率下跌原因分析思路
产品转化率是用户从【触达】–【感触】–【行动】的整个过程的转化效率。产品转化率下降要从这三个关键环节着手分析。1.产品的获客渠道有哪些,即流量来源。2.用户的关键行为(生命周期)有哪些,即AARRR,同时考察产品内容与产品结构。3.用户的构成有哪些变化,哪部分用户转化率下降?1.流量来源分析通过对流量的来源渠道进行分析,包括该渠道用户的注册数量、访问时长、访问深度、留存、订单量、UV等...
2019-09-23 15:23:21 3769
原创 用户画像(一)利用mysql进行用户画像
用户画像建模一、什么是用户画像用户画像、即用户标签化,通过收集用户的社会属性、消费习惯、偏好特征等各个维度的数据,对用户或者产品特征属性进行刻画,并对这些特征进行分析、统计以挖掘潜在的信息,从而抽象出一个用户的信息全貌。用户画像可看做是企业应用大数据的根基,是定向广告投放于个性化推荐的前置条件,为数据驱动运营奠定了基础。用户画像的核心目的是了解用户,画像是真实用户的虚拟代表,是建立在一系列真...
2019-09-23 15:08:39 2321
原创 机器学习基础知识
1.常见的六种特征选择方法:1)DF(Document Frequency) 文档频率DF:统计特征词出现的文档数量,用来衡量某个特征词的重要性2)MI(Mutual Information) 互信息法互信息法用于衡量特征词与文档类别直接的信息量。如果某个特征词的频率很低,那么互信息得分就会很大,因此互信息法倾向"低频"的特征词。相对的词频很高的词,得分就会变低,如果这词携...
2018-09-06 10:45:28 182
原创 自然语言处理3---TFIDF
# -*- coding:utf-8 -*-'''将tfidf写入txt文件'''import stringimport sysimport codecsreload(sys)import osfrom sklearn.feature_extraction.text import TfidfVectorizer, CountVectorizer, TfidfTransformerif
2017-10-25 16:24:55 426
原创 自然语言处理2---jieba分词
# -*- encoding:utf-8 -*-import re,HTMLParserimport sysreload(sys)import osimport jiebafrom sklearn.feature_extraction.text import TfidfVectorizer#sys.setdefaultencoding('utf-8')#输出的内容(爬下来的)是utf-
2017-10-25 16:23:22 320
原创 自然语言处理1---文本预处理(删除非文本,非数字字符)
# -*- encoding:utf-8 -*-import re,HTMLParserimport sysreload(sys)import ossys.setdefaultencoding('utf-8')#输出的内容(爬下来的)是utf-8的形式def file_fill(file_dir): # 得到文本.txt的路径 for root, dirs, files in
2017-10-25 16:22:02 2151
原创 python科学计算--核心工具包一瞥(三)(Ipython 及Ipython Notebook安装,win10,64)
1.ipython pip install ipython 安装好后,输入ipython命令,界面如下: 然后安装了urllib3(pip install),pyzmp(pip install),tornado(pip install) (虽然我不知道为什安装这些,也不知道这都是啥。。。。)2.启动notebook,在cmd窗口输入 ipython notebook,启动起来了,是在网页浏
2017-07-06 09:19:17 400
原创 python科学计算--核心工具包一瞥(二)(win10 64位,numpy,scipy,pandas,seaborn,wordcloud安装)
1.安装numpy,scipy (1)在网站http://www.lfd.uci.edu/~gohlke/pythonlibs/上下载: numpy-1.11.1+mkl-cp27-cp27m-win_amd64.whl,scipy-0.18.0-cp27-cp27m-win_amd64.whl两个安装包 (2)打开cmd的dos命令行,进入到python安装目录下的scripts目录下使用p
2017-06-23 20:59:04 2231
原创 python科学计算--核心工具包一瞥(一)(综述)
SciPy程序包积分模块: https://docs.scipy.org/doc/scipy/reference/generated/scipy.integrate.quad.html#scipy.integrate.quad 1.NumPy 网站网址:http://www.numpy.org/ 推荐安装命令:pip install numpy 导入:import numpy as np(
2017-06-22 20:06:12 417
原创 python 类的继承与重载
>>> class human: __age=0 __sex='' __height=0 __weight=0 name='' def __init__(self,age,sex,height,weight): self.__age=age self.__sex=sex self.__height=hei
2017-06-14 10:03:29 3999 1
原创 python爬虫学习笔记
一、爬虫思路: 对于一般的文章而言,思路如下 1.通过主页url获取主页源码,从主页源码中获得“标题”链接(如想要抓取知乎上的新闻,就获得主页上的新闻链接),2.继续通过“标题”链接获得“标题”源码,进而获得“标题”中的内容。其中,当存在多页时,先将每一页都一样的URL写下来,然后循环加入页码,具体事例如下(fanli_infoemation.py): fanly_url=’http://zh
2017-06-12 09:24:36 339
原创 欢迎使用CSDN-markdown编辑器
欢迎使用Markdown编辑器写博客本Markdown编辑器使用StackEdit修改而来,用它写博客,将会带来全新的体验哦:Markdown和扩展Markdown简洁的语法代码块高亮图片链接和图片上传LaTex数学公式UML序列图和流程图离线写博客导入导出Markdown文件丰富的快捷键快捷键加粗 Ctrl + B 斜体 Ctrl + I 引用 Ctrl
2017-06-12 09:07:05 220
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人