liying700-CSDN博客

hive合并数组将上图中红框的两个数组合并为一个数组并去重，也就是同一个productid对应的city_tags和hotel_tags取并集第一步，先将数组中的数据全部取出来使用LATERAL VIEW、explode 2个函数，可以实现把一个array类型的值分开SELECT t.productID, t.cityID,t.airlineCode,t.hotelID,tagv FROM (SELECT productID, cityID,airlineCode,hotelID, ta

2020-08-06 19:39:19 11438

原创 python科学计算--核心工具包一瞥（三）anaconda3安装pymysql

1.打开anaconda自带的prompt2.进入anaconda暗转目录下的scripts文件下3.执行pip install pymysql

2020-07-06 14:34:52 746 1

原创前端开发——小白踩坑记

踩坑经历一两个页面来回切换时前端请求一直处于pending状态，不能及时返回数据，最终造成请求阻塞，请求失败。一开始以为是因为接口出了问题，但是用postman测试接口，一切正常，数据库也没问题，后面查了很多资料，有一篇文章给我提了醒可查看该文章，可能是某个请求花费了大量的时间，后来就发现原来我的前端一直没有图标，而每次在页面切换的时候，浏览器都会默认发送一个请求获取一次网页图标，这个不是前端业务逻辑主动调用的XHR请求，但对于后端来说也是一次GET请求。请求不到图标就会一直pending，所以顺着这

2020-06-24 10:41:20 2001

原创 python常用函数及方法解释

1.sort（）描述： sort() 函数用于对原列表进行排序，如果指定参数，则使用比较函数指定的比较函数。语法： list.sort( key=None, reverse=False)key -- 主要是用来进行比较的元素，只有一个参数，具体的函数的参数就是取自于可迭代对象中，指定可迭代对象中的一个元素来进行排序。reverse -- 排序规则...

2020-03-25 09:49:06 622

转载 urllib.parse模块使用

url.parse :定义了url的标准接口，实现url的各种抽取parse模块的使用：url的解析，合并，编码，解码使用时需导入:from urllib import parseurlparse()实现URL的识别和分段url = 'https://book.qidian.com/info/1004608738?wd=123&page=20#Catalog'"""u...

2020-03-18 10:55:42 250

原创系统推荐笔记——第三章_推荐系统冷启动问题

目录一、利用用户注册信息二、选择合适的物品启动用户的兴趣三、利用物品的内容信息（参考LiuQQu文章，本章为CSDN博主「LiuQQu」的原创文章）四、发挥专家作用冷启动问题主要分为3类。用户冷启动用户冷启动主要解决如何给新用户做个性化推荐问题，当新用户到来时，我们没有他的行为数据，所以也没办法根据他的历史行为预测兴趣，从而无法借此给他做个性化推荐。物品冷启动物品冷...

2020-01-17 13:42:10 418

原创推荐系统实践笔记——第二章_利用用户行为数据

2020-01-16 11:32:22 583

原创推荐系统实践笔记——第一章_好的推荐系统

目录一、什么是推荐系统及推荐系统的任务：二、推荐系统的应用三、推荐系统评测一、什么是推荐系统及推荐系统的任务：推荐系统的任务就是联系用户和信息（物品），一方面帮助用户发现对自己有价值的信息（或称感兴趣的物品），另一方面能够让信息（物品）能够展现在对它感兴趣的用户面前。从而实现用户与信息（物品）之间的双赢。推荐系统与搜索引擎的区别在于，推荐紫铜不需要用户有明确的需求...

2020-01-13 14:45:46 396

原创用户复购周期计算

用户复购周期（两次购买之间的时间间隔）一、首先使用SQL进行计算注：用户在一天中发生多次购买则只记为1次购买。1.根据用户id与购买日期进行分组，将一天内发生多次消费记录进行合并。DROP TABLE member_Repurchase_cycle_01;CREATE TABLE member_Repurchase_cycle_01ASSELECT * FROM member_Rep...

2019-10-11 11:25:48 7866

原创产品转化率下跌原因分析思路

产品转化率是用户从【触达】–【感触】–【行动】的整个过程的转化效率。产品转化率下降要从这三个关键环节着手分析。1.产品的获客渠道有哪些，即流量来源。2.用户的关键行为（生命周期）有哪些，即AARRR，同时考察产品内容与产品结构。3.用户的构成有哪些变化，哪部分用户转化率下降？1.流量来源分析通过对流量的来源渠道进行分析，包括该渠道用户的注册数量、访问时长、访问深度、留存、订单量、UV等...

2019-09-23 15:23:21 4216

原创用户画像（一）利用mysql进行用户画像

用户画像建模一、什么是用户画像用户画像、即用户标签化，通过收集用户的社会属性、消费习惯、偏好特征等各个维度的数据，对用户或者产品特征属性进行刻画，并对这些特征进行分析、统计以挖掘潜在的信息，从而抽象出一个用户的信息全貌。用户画像可看做是企业应用大数据的根基，是定向广告投放于个性化推荐的前置条件，为数据驱动运营奠定了基础。用户画像的核心目的是了解用户，画像是真实用户的虚拟代表，是建立在一系列真...

2019-09-23 15:08:39 2518

原创机器学习基础知识

1.常见的六种特征选择方法：1）DF(Document Frequency) 文档频率DF:统计特征词出现的文档数量，用来衡量某个特征词的重要性2）MI(Mutual Information) 互信息法互信息法用于衡量特征词与文档类别直接的信息量。如果某个特征词的频率很低，那么互信息得分就会很大，因此互信息法倾向"低频"的特征词。相对的词频很高的词，得分就会变低，如果这词携...

2018-09-06 10:45:28 204

转载《用python进行员工离职原因分析与预测-----小象学院公开课》

1。什么是数据分析

2017-11-01 19:57:32 3402 1

原创自然语言处理3---TFIDF

# -*- coding:utf-8 -*-'''将tfidf写入txt文件'''import stringimport sysimport codecsreload(sys)import osfrom sklearn.feature_extraction.text import TfidfVectorizer, CountVectorizer, TfidfTransformerif

2017-10-25 16:24:55 453

原创自然语言处理2---jieba分词

# -*- encoding:utf-8 -*-import re,HTMLParserimport sysreload(sys)import osimport jiebafrom sklearn.feature_extraction.text import TfidfVectorizer#sys.setdefaultencoding('utf-8')#输出的内容（爬下来的）是utf-

2017-10-25 16:23:22 339

原创自然语言处理1---文本预处理（删除非文本，非数字字符）

# -*- encoding:utf-8 -*-import re,HTMLParserimport sysreload(sys)import ossys.setdefaultencoding('utf-8')#输出的内容（爬下来的）是utf-8的形式def file_fill(file_dir): # 得到文本.txt的路径 for root, dirs, files in

2017-10-25 16:22:02 2219

原创 python科学计算--核心工具包一瞥（三）（Ipython 及Ipython Notebook安装，win10，64）

1.ipython pip install ipython 安装好后，输入ipython命令，界面如下：然后安装了urllib3（pip install）,pyzmp（pip install），tornado（pip install）（虽然我不知道为什安装这些，也不知道这都是啥。。。。）2.启动notebook,在cmd窗口输入 ipython notebook,启动起来了，是在网页浏

2017-07-06 09:19:17 438

原创 python科学计算--核心工具包一瞥（二）（win10 64位，numpy,scipy，pandas，seaborn，wordcloud安装）

1.安装numpy，scipy （1）在网站http://www.lfd.uci.edu/~gohlke/pythonlibs/上下载： numpy-1.11.1+mkl-cp27-cp27m-win_amd64.whl，scipy-0.18.0-cp27-cp27m-win_amd64.whl两个安装包（2）打开cmd的dos命令行，进入到python安装目录下的scripts目录下使用p

2017-06-23 20:59:04 2281

原创 python科学计算--核心工具包一瞥（一）（综述）

SciPy程序包积分模块： https://docs.scipy.org/doc/scipy/reference/generated/scipy.integrate.quad.html#scipy.integrate.quad 1.NumPy 网站网址:http://www.numpy.org/ 推荐安装命令：pip install numpy 导入：import numpy as np（

2017-06-22 20:06:12 435

原创 python 类的继承与重载

>>> class human: __age=0 __sex='' __height=0 __weight=0 name='' def __init__(self,age,sex,height,weight): self.__age=age self.__sex=sex self.__height=hei

2017-06-14 10:03:29 4042 1

原创 python爬虫学习笔记

一、爬虫思路：对于一般的文章而言，思路如下 1.通过主页url获取主页源码，从主页源码中获得“标题”链接（如想要抓取知乎上的新闻，就获得主页上的新闻链接），2.继续通过“标题”链接获得“标题”源码，进而获得“标题”中的内容。其中，当存在多页时，先将每一页都一样的URL写下来，然后循环加入页码，具体事例如下（fanli_infoemation.py）： fanly_url=’http://zh

2017-06-12 09:24:36 356

原创欢迎使用CSDN-markdown编辑器

欢迎使用Markdown编辑器写博客本Markdown编辑器使用StackEdit修改而来，用它写博客，将会带来全新的体验哦：Markdown和扩展Markdown简洁的语法代码块高亮图片链接和图片上传LaTex数学公式UML序列图和流程图离线写博客导入导出Markdown文件丰富的快捷键快捷键加粗 Ctrl + B 斜体 Ctrl + I 引用 Ctrl

2017-06-12 09:07:05 245

liying700的博客

原创第二章 Scala变量和数据类型

原创第一章 Scala概述

原创 hive合并数组