自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(53)
  • 收藏
  • 关注

原创 推荐系统-特征工程

目录1. 制作与用户历史行为相关特征2. 用户相关特征3. 用户的系列习惯1. 制作与用户历史行为相关特征对于每个用户, 获取最后点击的N个商品的item_id,对于该用户的每个召回商品, 计算与上面最后N次点击商品的相似度的和(最大, 最小,均值), 时间差特征,相似性特征,字数差特征,与该用户的相似性特征# 下面基于data做历史相关的特征def create_feature(users_id, recall_list, click_hist_df, articles_info, artic

2020-12-03 23:38:42 265

原创 推荐系统-多路召回

目录1. 含义2. 定义多路召回字典3. 召回效果评估函数4. 计算相似性矩阵5. 召回1. 含义指采用不同的策略、特征或简单模型,分别召回一部分候选集,然后把候选集混合在一起供后续排序模型使用。示意图:2. 定义多路召回字典# 定义一个多路召回的字典,将各路召回的结果都保存在这个字典当中user_multi_recall_dict = {'itemcf_sim_itemcf_recall': {}, 'embedding_sim_ite

2020-11-30 23:48:10 933 1

原创 推荐新闻-数据分析

目录1. 目的2. 流程3. 数据探索4. 数据分析5. 总结1. 目的数据分析的目的是解数据集的整体情况,了解每个字段的含义,了解特征之间的关联性,以便更好地做特征工程工作。2. 流程主要分为数据读取、数据预处理、数据浏览和数据分析等过程。下面重点看数据浏览和数据分析部分。3. 数据探索用户点击日志文件_训练集用户点击日志文件_测试集新闻文章信息数据表新闻文章embedding向量表示4. 数据分析用户重复点击用户点击环境变化分析省略若干图用户点击新闻数量的分布

2020-11-27 23:01:15 1044

原创 推荐新闻-赛题理解

目录1. 赛题简介2. 数据概况3. 评分方式4. 赛题理解1. 赛题简介该赛题立足于真实新闻浏览数据,根据用户历史浏览记录,预测他点击的下一篇文章。2. 数据概况一共30用户的真实浏览数据,包括近300万次点击和36万篇不同文章。20万用户的日志为训练集,5万测试集,5万验证集。3. 评分方式赛题要求给出5篇文章作为最后的结果。如果用户最后点击的文章就是第一篇文章,那么s(user,1)=1,其他s(user,2-4)=0,那么结果是1。如果用户最后点击的文章是第二篇文章那么s(user,2

2020-11-25 23:12:05 138

原创 逻辑回归

文章目录1. 逻辑回归知识点2. 鸢尾花逻辑回归实例1. 逻辑回归知识点逻辑回归是一种分类算法使用Sigmoid函数,函数形式为:log(z)=11+e−zlog(z) =\frac{1}{1+e^{-z}}log(z)=1+e−z1​函数图像如下:当z≥0时,y≥0.5,分类为1,当 z<0时,y<0.5,分类为02. 鸢尾花逻辑回归实例鸢花数据(iris)一共包含5个变量,其中4个特征变量,1个目标分类变量。目标变量为 花的类别 其都属于鸢尾属下的三个亚属,分别

2020-08-20 22:29:06 147

原创 RFM模型聚类分析客户价值

文章目录1. 导入工具库2. 构建RFM模型3. K-Means聚类分析4. 结论1. 导入工具库import pandas as pdfrom math import ceilfrom datetime import datetimefrom sklearn.cluster import KMeans2. 构建RFM模型读取数据df = pd.read_excel('原始数据.xlsx',index_col='用户编码')df.head()提取数据日期# 提数日为2016年7月

2020-08-15 22:53:20 1050 1

原创 Python数据分析及可视化——以拉勾网数据分析岗位为例

文章目录1. 导入工具库2. 读取文件3. 岗位城市分布图4. 学历要求百分图5. 企业词云图6. 各城市平均薪资对比图对上篇文章(点击回顾)爬取的拉勾网数据分析岗位招聘信息进行数据分析和可视化操作。1. 导入工具库import pandas as pdimport matplotlib.pyplot as pltimport matplotlibfrom wordcloud import WordCloud2. 读取文件# 添加表头,保存为新文件(避免污染元数据)df = pd.rea

2020-08-13 21:20:00 3177 1

原创 利用Python爬取拉勾网招聘信息

文章目录第一步:导入工具库第二步:爬取数据第三步:解析数据第四步:保存数据完整代码结果第一步:导入工具库import requests,json,csv,time第二步:爬取数据因为拉勾使用异步加载方式对数据进行了封装,所以不能直接用requests库的get或post方法,而是使用session会话。构建session会话session = requests.session()构建请求头headers = { 'referer' : 'https://www.lagou.co

2020-08-12 20:23:17 2184 6

原创 文件和文件系统

目录1. 文件操作2. OS模块1. 文件操作打开文件open(file, mode='r', buffering=None, encoding=None, errors=None, newline=None, closefd=True)file: 必需,文件路径(相对或者绝对路径)。mode: 可选,文件打开模式buffering: 设置缓冲encoding: 一般使用utf8errors: 报错级别newline: 区分换行符打开一个文件,并返回文件对象,如果该文件无法被打开,会

2020-08-07 15:02:51 176

原创 模块

目录1. 模块介绍2. datatime模块1. 模块介绍模块是一个包含所有人为定义函数和变量的文件,其后缀名是.py。容器 -> 数据的封装函数 -> 语句的封装类 -> 方法和属性的封装模块 -> 程序文件创建一个 hello.py 文件# hello.pydef hi(): print('Hi everyone, I love lsgogroup!')命名空间因为对象的不同,也有所区别,可以分为如下几种:内置命名空间(Built-in Na

2020-08-07 00:44:37 164

原创 类,对象和魔法方法

目录1. 类和对象2. 魔法方法1. 类和对象封装:信息隐蔽技术。class Turtle: # Python中的类名约定以大写字母开头 """关于类的一个简单例子""" # 属性 color = 'green' weight = 10 legs = 4 shell = True mouth = '大嘴' # 方法 def climb(self): print('我正在很努力的向前爬...') def

2020-08-05 19:37:20 149

原创 函数和匿名表达式

目录1. 函数2. 匿名表达式1. 函数函数的定义def functionname(parameters): "函数_文档字符串" function_suite return [expression]函数的参数位置参数:def functionname(arg1): "函数_文档字符串" function_suite return [expression]默认参数:def printinfo(name, age=8): print(

2020-08-02 23:37:16 345

原创 字典、集合和序列

目录1. 字典2. 集合1. 字典创建和访问字典brand = ['李宁', '耐克', '阿迪达斯']slogan = ['⼀切皆有可能', 'Just do it', 'Impossible is nothing']print('耐克的⼝号是:', slogan[brand.index('耐克')]) # 耐克的⼝号是: Just do it# 法1dic = {'李宁': '⼀切皆有可能', '耐克': 'Just do it', '阿迪达斯': 'Impossible is not

2020-07-31 23:44:22 166

原创 列表、元组和字符串

目录1. 列表2. 元组3. 字符串1. 列表由于list的元素可以是任何对象,因此列表中所保存的是对象的指针。即使保存一个简单的[1,2,3],也有3个指针和3个整数对象。x = [a] * 4操作中,只是创建4个指向list的引用,所以一旦a改变,x中4个a也会随之改变。x = [[0] * 3 for row in range(4)]print(x, type(x))# [[0, 0, 0], [0, 0, 0], [0, 0, 0], [0, 0, 0]] <class 'list

2020-07-28 23:36:56 354

原创 异常处理

目录1. try - except 语句2. try - except - finally 语句3. try - except - else 语句4. raise语句5. 练习题1. try - except 语句try: 检测范围except Exception[as reason]: 出现异常后的处理代码实例:try: f = open('test.txt') print(f.read()) f.close()except OSError as

2020-07-25 23:12:46 88

原创 推导式

目录1. assert2. enumerate3. 推导式3.1 列表推导式3.2 元组推导式3.3 字典推导式3.4 集合推导式3.5 生成器练习题1. assertassert这个关键词我们称之为“断言”,当这个关键词后边的条件为 False时,程序自动崩溃并抛出AssertionError的异常。assert 3 > 7# AssertionError2. enumerate枚举函数enumerate(sequence, [start=0])sequence – 迭代对象

2020-07-23 23:08:59 229

原创 位运算

目录位运算符实例练习题其他想法位运算符操作符描述~按位取反&按位与|按位或^按位异或<<左移>>右移## 按位取反,0 变为 1,1 变为 0~ 1 = 0~ 0 = 1## 按位与,只有两个对应位都为 1 时才为 11 & 1 = 11 & 0 = 00 & 1 = 00 & 0 = 0## 按位或,只要两个对应位中有一个 1 时就为 11 | 1

2020-07-22 21:43:31 113

原创 街景字符识别—模型集成

目录1. 集成学习方法2. 深度学习中的集成学习2.1 Dropout2.2 TTA2.3 Snapshot3. 后处理1. 集成学习方法集成学习方法可以提高预测精度,常见的有Stacking、Bagging和Boosting。一般利用交叉验证法提高精度,如下所示。使用10折交叉验证法,得到10个CNN模型,可通过以下方法进行集成。平均预测结果的概率值,然后解码为具体字符。对预测的字符进行投票,得到最终字符。2. 深度学习中的集成学习2.1 DropoutDropout在训练过程中会随

2020-05-29 22:30:22 191

原创 街景字符识别—模型训练和验证

目录1. 构建验证集2. 模型训练和验证3. 模型保存和加载4. 模型调参1. 构建验证集在深度学习过程中,可能出现过拟合问题。过拟合指模型误差在训练集上随着训练次数和模型复杂度增加而减少,却在训练集上先减后增。如下所示。构建验证集能够有效解决过拟合问题,验证集需要尽可能与测试集保持一致,在训练过程中不断验证模型在验证集上的精度,以此控制模型训练。总结一下:训练集:模型训练和调整模型参数;验证集:验证模型精度和调整模型超参数;测试集:测试模型泛化能力。如图,构建验证集常用三种方法:

2020-05-26 23:22:29 263

原创 街景字符识别—字符识别模型

目录1. CNN简介2. 使用pytorch构建CNN模型1. CNN简介CNN,卷积神经网络,是深度学习中的一个分支,在计算机视觉领域,特别是图像分类、图像检索、物体检测和语义分割的主流模型。CNN每一层由众多卷积核组成,每个卷积核对输入的像素进行卷积操作,得到下一次输入。CNN是一种层次模型,由卷积、池化、非线性激活函数和全连接层组成。上图为LeNet结构图,是经典的字符识别模型。通过多次卷积和池化,最后将输入的像素映射为具体的输出。假若是分类任务,则会输出不同类别的概率,然后计算真实标签与

2020-05-26 15:56:44 367

原创 Mysql8.0版本忘记密码(已解决)

今天心血来潮,想复习一下数据库知识,奈何却发现因荒弃太久,连数据库登录密码都搞忘记了,又嫌重装太麻烦,就毅然踏上了手动解决的不归路。一开始搜了很多解决方法,有用mysqld --skip-grant-tables,有修改my.ini文件的,但统统无效!弄了整整一个下午,搞得我一个头两个大。就在我心灰意冷,准备放弃的时候,突然灵光一现,有可能是版本问题!因为之前搜索的关键词是“mysql忘记密码”,并没有带版本,所以得到的结果多半是5.7版本的。意识到这一点后,我把搜索关键词改为mysql8.0忘记密码,果

2020-05-25 18:56:22 1055 4

原创 街景字符识别—数据读取与数据扩增

目录1. 图像读取1.1 Pillow1.2 Opencv2. 数据扩增3. 读取数据1. 图像读取1.1 PillowPillow是Python图像处理函数库(PIL)的一个分支,提供了常见的图像处理和处理的操作。from PIL import Imageim =Image.open('IMG/Task02/Pillow读取原图.png')imfrom PIL import Image,ImageFilter im = Image.open('IMG/Task02/Pillow读取原图

2020-05-23 00:48:04 259

原创 街景字符识别—赛题理解

目录1. 赛题背景2. 赛题数据3. 评分标准4. 解题思路1. 赛题背景赛题以计算机视觉中字符识别为背景,要求选手预测真实场景下的字符识别,这是一个典型的字符识别问题。通过这道赛题可以引导大家走入计算机视觉的世界,主要针对竞赛选手上手视觉赛题,提高对数据建模能力。2. 赛题数据赛题来源自Google街景图像中的门牌号数据集,训练集数据包括3W张照片,验证集数据包括1W张照片,每张照片包括颜色图像和对应的编码类别和具体位置;为了保证比赛的公平性,测试集A包括4W张照片,测试集B包括4W张照片。为

2020-05-20 16:09:06 334

原创 Pandas综合练习答案

1. 2002 年-2018 年上海机动车拍照拍卖(1) 哪一次拍卖的中标率首次小于 5%?(2) 按年统计拍卖最低价的下列统计量:最大值、均值、0.75 分位数,要求显示在同一张表上。(3) 将第一列时间列拆分成两个列,一列为年份(格式为 20××),另一列为月份(英语缩写),添加到列表作为第一第二列,并将原表第一列删除,其他列依次向后顺延。...

2020-05-01 21:47:25 1093

原创 Pandas学习笔记—合并

目录1. append与assign1.1 append方法1.2 assign方法2. combine与update2.1 comine方法1. append与assign1.1 append方法利用序列添加行(必须指定name)用DataFrame添加表1.2 assign方法该方法主要用于添加列,列名直接由参数指定:可以一次添加多个列2. combine与upda...

2020-04-30 21:33:37 277

原创 Pandas学习笔记—变形

目录1. 透视表1.1 pivot1.2 pivot_table1.3 crosstab(交叉表)1. 透视表1.1 pivot一般状态下,数据在DataFrame会以压缩(stacked)状态存放,例如上面的Gender,两个类别被叠在一列中,pivot函数可将某一列作为新的cols1.2 pivot_tableaggfunc:对组内进行聚合统计,可传入各类函数,默认为’mean’...

2020-04-28 21:44:21 310

原创 Pandas学习笔记—分组

目录1. groupby函数1.1 分组函数的基本内容1.2 groupby对象的特点2. 聚合、过滤和变换2.1 聚合(Aggregation)2.2 过滤(Filteration)2.3 变换(Transformation)3. apply函数4. 问题与练习4.1 问题4.2 练习1. groupby函数1.1 分组函数的基本内容根据某一列分组根据某几列分组组容量组数组...

2020-04-26 21:58:12 482

原创 Pandas学习笔记—索引

索引1. 单级索引1.1 loc方法、iloc方法、[]操作符1.1.1 loc方法1. 单级索引1.1 loc方法、iloc方法、[]操作符1.1.1 loc方法单行索引多行索引单列索引

2020-04-23 21:08:36 492

原创 Pandas学习笔记—基础

目录1. 文件读取和写入1.1 读取1.2 写入2. 基本数据结构2.1 Series1. 文件读取和写入1.1 读取csv格式df = pd.read_csv('data/table.csv')txt格式df_txt = pd.read_table('data/table.txt')xls或xlsx格式df_excel = pd.read_excel('data/table....

2020-04-20 20:12:23 251

原创 云服务器部署jspgou商城

目录1. 前期准备2. 实际操作2.1 部署tomcat2.2 部署java开发环境2.3 修改环境变量2.4 检测java是否安装成功2.5 检测tomcat是否安装成功2.6 浏览器检测运行2.7 安装数据库2.8 启动服务并设置为开机启动2.9 部署数据库2.10 上传项目并解压2.11 删除测试页面,拷贝项目至网站发布目录2.12 数据库配置2.13 启动tomcat2.14 浏览器访问服...

2020-04-08 00:32:10 431

原创 云服务器部署QQ农场

目录1. 前期准备2. 实际操作2.1 安装LNMP架构2.1.1 安装mysql数据库2.1.2 安装nginx2.1.3 安装php2.2 启动三大服务并设置为开机启动2.3 部署三大服务2.3.1 部署数据库2.3.2 部署nginx2.4 部署php2.5 重新启动服务2.6 上传项目并解压2.7 创建网站发布目录,拷贝项目至网站目录下2.8 设置权限2.9 导入数据库2.10 浏览器访问...

2020-04-07 21:47:08 1339 1

原创 云服务器部署个人论坛Discuz

目录1. 前期准备2. 实际操作1. 前期准备一台重装系统后的云服务器。使用 FinalShell连接云服务器。2. 实际操作

2020-04-07 20:27:37 358

原创 云服务器部署个人博客WordPress

目录1. 前期准备2. 实际操作2.1. 安装LAMP架构2.2. 启动apache服务2.3. 启动数据库服务2.4. 启动php服务2.5. apache服务部署2.6. 数据库部署2.7. 上传项目包2.8. 项目解压2.9. 创建网站发布目录,把项目拷贝至网站发布目录下2.10. 设置权限2.11. 浏览器访问服务器公网ip地址1. 前期准备一台重装系统后的云服务器。使用 Fina...

2020-04-07 10:47:35 224

原创 搭建类京东网站服务器

目录1. 前期准备2. 实际操作3. 其他1. 前期准备一台云服务器。使用 FinalShell连接云服务器。2. 实际操作安装apache服务yum -y install httpd启动apache服务systemctl start httpd设置apache服务为开机启动systemctl enable httpd切换至网站发布目录cd /va...

2020-04-07 08:53:52 970

原创 二手车交易价格预测-模型融合

目录1. 学习目标2. 背景知识2.1 回归模型融合2.1.1 加权融合2.1.2 starking融合2.2 分类模型融合2.2.1 Voting投票2.2.2 Stacking\Blending融合2.2.3 利用mlxtend的Stacking融合2.3 其他方法3. 项目内容和代码3.1 数据读取3.2 数据处理3.3 建立模型3.4 XGBoost的五折交叉回归验证实现3.5 加权融合3...

2020-04-04 15:02:15 418

原创 二手车交易价格预测-建模调参

目录1. 学习目标2. 内容及代码2.1 导入数据2.2 建模2.3 五折交叉验证2.4 绘制学习率曲线与验证曲线2.5 多种模型对比2.5.1 线性模型2.5.2 非线性模型2.6 模型调参2.6.1 贪心调参2.6.2 网格搜索调参2.6.3 贝叶斯调参3. 总结1. 学习目标了解常用的机器学习模型,并掌握机器学习模型的建模与调参流程。2. 内容及代码2.1 导入数据import ...

2020-04-01 17:36:25 497

原创 二手车交易价格预测-特征工程

目录1. 特征工程目标2. 内容及代码2.1 导入数据2.2 异常值处理2.3 特征构造2.4 特征筛选3. 问题及解决方法4. 总结1. 特征工程目标特征工程的主要目的在于将数据转换为能更好表示潜在问题的特征,从而提高机器学习的性能。2. 内容及代码2.1 导入数据import pandas as pdimport numpy as npimport matplotlibimpo...

2020-03-28 17:06:20 507

原创 二手车交易价格预测-数据探索性分析(EDA)

二手车交易价格预测-数据探索性分析(EDA)1. EDA定义和目标1.1 定义1.2 目标2. EDA内容及代码2.1 导入工具库2.2 导入数据2.3 数据总览2.4 查看缺失和异常2.5 查看预测值的分布2.6 特征分析2.6.1 数字特征分析2.6.2 类别特征分析3.生成数据报告4. 问题及解决方法5. 总结1. EDA定义和目标1.1 定义EDA(数据探索性分析),是指对已有的数据...

2020-03-24 21:19:53 688

原创 统计学学习笔记四

2019-05-17 13:36:27 116

原创 统计学学习笔记三

2019-05-15 18:53:04 159

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除