lz你ps
码龄10年
关注
提问 私信
  • 博客:33,481
    社区:1
    33,482
    总访问量
  • 53
    原创
  • 1,320,935
    排名
  • 31
    粉丝
  • 0
    铁粉
IP属地以运营商信息为准,境内显示到省(区、市),境外显示到国家(地区)
IP 属地:广东省
  • 加入CSDN时间: 2015-01-09
博客简介:

lz你ps的博客

查看详细资料
个人成就
  • 获得33次点赞
  • 内容获得15次评论
  • 获得194次收藏
  • 代码片获得516次分享
创作历程
  • 38篇
    2020年
  • 15篇
    2019年
成就勋章
创作活动更多

仓颉编程语言体验有奖征文

仓颉编程语言官网已上线,提供版本下载、在线运行、文档体验等功能。为鼓励更多开发者探索仓颉编程语言,现诚邀各位开发者通过官网在线体验/下载使用,参与仓颉体验有奖征文活动。

368人参与 去创作
  • 最近
  • 文章
  • 代码仓
  • 资源
  • 问答
  • 帖子
  • 视频
  • 课程
  • 关注/订阅/互动
  • 收藏
搜TA的内容
搜索 取消

推荐系统-特征工程

目录1. 制作与用户历史行为相关特征2. 用户相关特征3. 用户的系列习惯1. 制作与用户历史行为相关特征对于每个用户, 获取最后点击的N个商品的item_id,对于该用户的每个召回商品, 计算与上面最后N次点击商品的相似度的和(最大, 最小,均值), 时间差特征,相似性特征,字数差特征,与该用户的相似性特征# 下面基于data做历史相关的特征def create_feature(users_id, recall_list, click_hist_df, articles_info, artic
原创
发布博客 2020.12.03 ·
367 阅读 ·
0 点赞 ·
0 评论 ·
1 收藏

推荐系统-多路召回

目录1. 含义2. 定义多路召回字典3. 召回效果评估函数4. 计算相似性矩阵5. 召回1. 含义指采用不同的策略、特征或简单模型,分别召回一部分候选集,然后把候选集混合在一起供后续排序模型使用。示意图:2. 定义多路召回字典# 定义一个多路召回的字典,将各路召回的结果都保存在这个字典当中user_multi_recall_dict = {'itemcf_sim_itemcf_recall': {}, 'embedding_sim_ite
原创
发布博客 2020.11.30 ·
1059 阅读 ·
1 点赞 ·
1 评论 ·
3 收藏

推荐新闻-数据分析

目录1. 目的2. 流程3. 数据探索4. 数据分析5. 总结1. 目的数据分析的目的是解数据集的整体情况,了解每个字段的含义,了解特征之间的关联性,以便更好地做特征工程工作。2. 流程主要分为数据读取、数据预处理、数据浏览和数据分析等过程。下面重点看数据浏览和数据分析部分。3. 数据探索用户点击日志文件_训练集用户点击日志文件_测试集新闻文章信息数据表新闻文章embedding向量表示4. 数据分析用户重复点击用户点击环境变化分析省略若干图用户点击新闻数量的分布
原创
发布博客 2020.11.27 ·
1145 阅读 ·
0 点赞 ·
0 评论 ·
5 收藏

推荐新闻-赛题理解

目录1. 赛题简介2. 数据概况3. 评分方式4. 赛题理解1. 赛题简介该赛题立足于真实新闻浏览数据,根据用户历史浏览记录,预测他点击的下一篇文章。2. 数据概况一共30用户的真实浏览数据,包括近300万次点击和36万篇不同文章。20万用户的日志为训练集,5万测试集,5万验证集。3. 评分方式赛题要求给出5篇文章作为最后的结果。如果用户最后点击的文章就是第一篇文章,那么s(user,1)=1,其他s(user,2-4)=0,那么结果是1。如果用户最后点击的文章是第二篇文章那么s(user,2
原创
发布博客 2020.11.25 ·
170 阅读 ·
0 点赞 ·
0 评论 ·
0 收藏

逻辑回归

文章目录1. 逻辑回归知识点2. 鸢尾花逻辑回归实例1. 逻辑回归知识点逻辑回归是一种分类算法使用Sigmoid函数,函数形式为:log(z)=11+e−zlog(z) =\frac{1}{1+e^{-z}}log(z)=1+e−z1​函数图像如下:当z≥0时,y≥0.5,分类为1,当 z<0时,y<0.5,分类为02. 鸢尾花逻辑回归实例鸢花数据(iris)一共包含5个变量,其中4个特征变量,1个目标分类变量。目标变量为 花的类别 其都属于鸢尾属下的三个亚属,分别
原创
发布博客 2020.08.20 ·
174 阅读 ·
0 点赞 ·
0 评论 ·
0 收藏

RFM模型聚类分析客户价值

文章目录1. 导入工具库2. 构建RFM模型3. K-Means聚类分析4. 结论1. 导入工具库import pandas as pdfrom math import ceilfrom datetime import datetimefrom sklearn.cluster import KMeans2. 构建RFM模型读取数据df = pd.read_excel('原始数据.xlsx',index_col='用户编码')df.head()提取数据日期# 提数日为2016年7月
原创
发布博客 2020.08.15 ·
1194 阅读 ·
1 点赞 ·
1 评论 ·
7 收藏

Python数据分析及可视化——以拉勾网数据分析岗位为例

文章目录1. 导入工具库2. 读取文件3. 岗位城市分布图4. 学历要求百分图5. 企业词云图6. 各城市平均薪资对比图对上篇文章(点击回顾)爬取的拉勾网数据分析岗位招聘信息进行数据分析和可视化操作。1. 导入工具库import pandas as pdimport matplotlib.pyplot as pltimport matplotlibfrom wordcloud import WordCloud2. 读取文件# 添加表头,保存为新文件(避免污染元数据)df = pd.rea
原创
发布博客 2020.08.13 ·
3444 阅读 ·
11 点赞 ·
1 评论 ·
75 收藏

利用Python爬取拉勾网招聘信息

文章目录第一步:导入工具库第二步:爬取数据第三步:解析数据第四步:保存数据完整代码结果第一步:导入工具库import requests,json,csv,time第二步:爬取数据因为拉勾使用异步加载方式对数据进行了封装,所以不能直接用requests库的get或post方法,而是使用session会话。构建session会话session = requests.session()构建请求头headers = { 'referer' : 'https://www.lagou.co
原创
发布博客 2020.08.12 ·
2376 阅读 ·
4 点赞 ·
6 评论 ·
42 收藏

文件和文件系统

目录1. 文件操作2. OS模块1. 文件操作打开文件open(file, mode='r', buffering=None, encoding=None, errors=None, newline=None, closefd=True)file: 必需,文件路径(相对或者绝对路径)。mode: 可选,文件打开模式buffering: 设置缓冲encoding: 一般使用utf8errors: 报错级别newline: 区分换行符打开一个文件,并返回文件对象,如果该文件无法被打开,会
原创
发布博客 2020.08.07 ·
249 阅读 ·
0 点赞 ·
0 评论 ·
0 收藏

模块

目录1. 模块介绍2. datatime模块1. 模块介绍模块是一个包含所有人为定义函数和变量的文件,其后缀名是.py。容器 -> 数据的封装函数 -> 语句的封装类 -> 方法和属性的封装模块 -> 程序文件创建一个 hello.py 文件# hello.pydef hi(): print('Hi everyone, I love lsgogroup!')命名空间因为对象的不同,也有所区别,可以分为如下几种:内置命名空间(Built-in Na
原创
发布博客 2020.08.07 ·
229 阅读 ·
0 点赞 ·
0 评论 ·
0 收藏

类,对象和魔法方法

目录1. 类和对象2. 魔法方法1. 类和对象封装:信息隐蔽技术。class Turtle: # Python中的类名约定以大写字母开头 """关于类的一个简单例子""" # 属性 color = 'green' weight = 10 legs = 4 shell = True mouth = '大嘴' # 方法 def climb(self): print('我正在很努力的向前爬...') def
原创
发布博客 2020.08.05 ·
172 阅读 ·
0 点赞 ·
0 评论 ·
1 收藏

函数和匿名表达式

目录1. 函数2. 匿名表达式1. 函数函数的定义def functionname(parameters): "函数_文档字符串" function_suite return [expression]函数的参数位置参数:def functionname(arg1): "函数_文档字符串" function_suite return [expression]默认参数:def printinfo(name, age=8): print(
原创
发布博客 2020.08.02 ·
424 阅读 ·
0 点赞 ·
0 评论 ·
0 收藏

字典、集合和序列

目录1. 字典2. 集合1. 字典创建和访问字典brand = ['李宁', '耐克', '阿迪达斯']slogan = ['⼀切皆有可能', 'Just do it', 'Impossible is nothing']print('耐克的⼝号是:', slogan[brand.index('耐克')]) # 耐克的⼝号是: Just do it# 法1dic = {'李宁': '⼀切皆有可能', '耐克': 'Just do it', '阿迪达斯': 'Impossible is not
原创
发布博客 2020.07.31 ·
184 阅读 ·
1 点赞 ·
0 评论 ·
0 收藏

列表、元组和字符串

目录1. 列表2. 元组3. 字符串1. 列表由于list的元素可以是任何对象,因此列表中所保存的是对象的指针。即使保存一个简单的[1,2,3],也有3个指针和3个整数对象。x = [a] * 4操作中,只是创建4个指向list的引用,所以一旦a改变,x中4个a也会随之改变。x = [[0] * 3 for row in range(4)]print(x, type(x))# [[0, 0, 0], [0, 0, 0], [0, 0, 0], [0, 0, 0]] <class 'list
原创
发布博客 2020.07.28 ·
483 阅读 ·
0 点赞 ·
0 评论 ·
0 收藏

异常处理

目录1. try - except 语句2. try - except - finally 语句3. try - except - else 语句4. raise语句5. 练习题1. try - except 语句try: 检测范围except Exception[as reason]: 出现异常后的处理代码实例:try: f = open('test.txt') print(f.read()) f.close()except OSError as
原创
发布博客 2020.07.25 ·
109 阅读 ·
0 点赞 ·
0 评论 ·
0 收藏

推导式

目录1. assert2. enumerate3. 推导式3.1 列表推导式3.2 元组推导式3.3 字典推导式3.4 集合推导式3.5 生成器练习题1. assertassert这个关键词我们称之为“断言”,当这个关键词后边的条件为 False时,程序自动崩溃并抛出AssertionError的异常。assert 3 > 7# AssertionError2. enumerate枚举函数enumerate(sequence, [start=0])sequence – 迭代对象
原创
发布博客 2020.07.23 ·
396 阅读 ·
0 点赞 ·
0 评论 ·
0 收藏

位运算

目录位运算符实例练习题其他想法位运算符操作符描述~按位取反&按位与|按位或^按位异或<<左移>>右移## 按位取反,0 变为 1,1 变为 0~ 1 = 0~ 0 = 1## 按位与,只有两个对应位都为 1 时才为 11 & 1 = 11 & 0 = 00 & 1 = 00 & 0 = 0## 按位或,只要两个对应位中有一个 1 时就为 11 | 1
原创
发布博客 2020.07.22 ·
209 阅读 ·
0 点赞 ·
0 评论 ·
0 收藏

街景字符识别—模型集成

目录1. 集成学习方法2. 深度学习中的集成学习2.1 Dropout2.2 TTA2.3 Snapshot3. 后处理1. 集成学习方法集成学习方法可以提高预测精度,常见的有Stacking、Bagging和Boosting。一般利用交叉验证法提高精度,如下所示。使用10折交叉验证法,得到10个CNN模型,可通过以下方法进行集成。平均预测结果的概率值,然后解码为具体字符。对预测的字符进行投票,得到最终字符。2. 深度学习中的集成学习2.1 DropoutDropout在训练过程中会随
原创
发布博客 2020.05.29 ·
331 阅读 ·
0 点赞 ·
0 评论 ·
0 收藏

街景字符识别—模型训练和验证

目录1. 构建验证集2. 模型训练和验证3. 模型保存和加载4. 模型调参1. 构建验证集在深度学习过程中,可能出现过拟合问题。过拟合指模型误差在训练集上随着训练次数和模型复杂度增加而减少,却在训练集上先减后增。如下所示。构建验证集能够有效解决过拟合问题,验证集需要尽可能与测试集保持一致,在训练过程中不断验证模型在验证集上的精度,以此控制模型训练。总结一下:训练集:模型训练和调整模型参数;验证集:验证模型精度和调整模型超参数;测试集:测试模型泛化能力。如图,构建验证集常用三种方法:
原创
发布博客 2020.05.26 ·
317 阅读 ·
0 点赞 ·
0 评论 ·
0 收藏

街景字符识别—字符识别模型

目录1. CNN简介2. 使用pytorch构建CNN模型1. CNN简介CNN,卷积神经网络,是深度学习中的一个分支,在计算机视觉领域,特别是图像分类、图像检索、物体检测和语义分割的主流模型。CNN每一层由众多卷积核组成,每个卷积核对输入的像素进行卷积操作,得到下一次输入。CNN是一种层次模型,由卷积、池化、非线性激活函数和全连接层组成。上图为LeNet结构图,是经典的字符识别模型。通过多次卷积和池化,最后将输入的像素映射为具体的输出。假若是分类任务,则会输出不同类别的概率,然后计算真实标签与
原创
发布博客 2020.05.26 ·
424 阅读 ·
0 点赞 ·
0 评论 ·
1 收藏
加载更多