python
文章平均质量分 71
ASKED_2019
这个作者很懒,什么都没留下…
展开
-
LightFM推荐系统框架学习笔记(二)
一款强大的推荐系统框架,可以处理用户/产品冷启动这一篇主要对基础接口进行一些总结LightFMlightfm.LightFM(no_components=10, k=5, n=10, learning_schedule=‘adagrad’, loss=‘logistic’, learning_rate=0.05, rho=0.95, epsilon=1e-06, item_alpha=0.0, user_alpha=0.0, max_sampled=10, random_state=None)参数:原创 2022-07-28 11:18:39 · 755 阅读 · 0 评论 -
python logging模块:给程序加个记录
最近需要给自己程序添加一些记录以助于排查bug,所以用到了logging,就此做些记录。logging是python内置的日志模块。1 基本认知1.1 level由严重程序排序依次为CRITICAL>ERROR>WARNING>INFO>DEBUG。下面是介绍【来自于ref3】1.2 logging四大组件logger:暴露接口 (expose the interface that application code directly uses)Handler:安排原创 2022-04-02 12:27:44 · 912 阅读 · 0 评论 -
python读取图片并且转码成base64
import base64with open("grayimage.png", "rb") as img_file:#对于图片而言read读取的结果是bytes b64_string = base64.b64encode(img_file.read()) return b64_string.decode("utf-8")# decode is used for removing b’ from the prefix of base64 code当然也可以使用opencv读取原创 2022-03-28 18:35:22 · 4735 阅读 · 0 评论 -
optuna调参神器学习笔记(二)
手动添加先验参数optuna提供自动参数搜索,但有时候有一些特定的超参数集要先尝试, 比如初始学习率和叶子数量. 另外, 也有可能在让 Optuna 找到更好的超参数集之前,你已经尝试过一些集合.Optuna 提供 两个API 以应对这种场景:将这些超参数集合传递过去并让 Optuna 对其求值 enqueue_trial()将这些集合的结果标记为已完成的 Trials add_trial()第一个场景: 让 Optuna 对你的超参数求值有一些备选值使用Optuna 有一个 API opt原创 2022-03-04 12:07:14 · 1897 阅读 · 0 评论 -
调参神器optuna学习笔记
介绍optuna作为调参工具适合绝大多数的机器学习框架,sklearn,xgb,lgb,pytorch等。主要的调参原理如下:1 采样算法利用 suggested 参数值和评估的目标值的记录,采样器基本上不断缩小搜索空间,直到找到一个最佳的搜索空间,其产生的参数会带来 更好的目标函数值。optuna.samplers.TPESampler 实现的 Tree-structured Parzen Estimator 算法optuna.samplers.CmaEsSampler 实现的 CMA-原创 2022-03-04 11:18:04 · 7645 阅读 · 4 评论 -
Pyspark DataFrame操作笔记
spark data frame 基操原创 2020-10-27 18:28:03 · 6148 阅读 · 0 评论 -
pandas transform:一行代码实现分组计算添加新列
在进行数据分析时,时常需要分组计算,使用groupby+apply组合计算。但是当想原地插入新列时,使用groupby + apply 会发生列不匹配的错误。dat = data[['glass_id','equip_id','unit_id','factory','step_id','label']]dat = dat.drop_duplicates().reset_index()dat['step'] = dat['factory']+'_'+dat['step_id'] dat = dat.原创 2020-07-29 18:59:59 · 4090 阅读 · 1 评论 -
python自动发邮件(嵌入图片,带附件,html内容)-注释详细
# -*- coding: utf-8 -*-"""Created on Thu Apr 2 09:40:33 2020@author: 10102852"""import smtplibfrom email.mime.text import MIMETextfrom email.mime.multipart import MIMEMultipartfrom email.mim...原创 2020-04-20 11:13:11 · 2746 阅读 · 2 评论 -
python中的赋值,copy(浅复制)与deepcopy(深复制)——图解
对python中的赋值,copy(浅复制)与deepcopy(深复制)的图解,整理后保存。本文介绍了对象的赋值和拷贝,以及它们之间的差异:Python中对象的赋值都是进行对象引用(内存地址)传递使用copy.copy(),可以进行对象的浅拷贝,它复制了对象,但对于对象中的元素,依然使用原始的引用.如果需要复制一个容器对象,以及它里面的所有元素(包含元素的子元素),可以使用copy.dee...转载 2020-02-22 13:25:28 · 369 阅读 · 0 评论 -
windows10下安装pyspark
安装方法主要参考了一下博文:https://blog.csdn.net/HJXINKKL/article/details/57083549https://blog.csdn.net/HJXINKKL/article/details/81951551安装源:java:https://repo.huaweicloud.com/java/jdk/...原创 2020-02-18 23:18:04 · 608 阅读 · 0 评论 -
wordcloud库及词云
wordcloud库将词云看做WordCloud()对象,-wordcloud.WordCloud()代表一个文本对应的词云,可以根据文本中词语出现的频率等参数绘制词云。其中,词云形状字体颜色均可以设定。#生成一个词云对象w = wordcloud.WordCloud()方法方法描述w.generate(txt)向WordCloud对象w中添加文本txtw.t...原创 2020-02-10 01:52:35 · 606 阅读 · 0 评论 -
中文分词库jieba使用
一 分词原理利用中文词库,确定汉字之间的相关概率,将汉字件概率大的组成词组,形成分词结果。另外,在一些情况下,需要自定词组时,也可以自行定义。二 jieba库的使用jieba库分词有三种模式:精确模式,全模式和搜索引擎模式精确模式:精确模式:把文本精确分开,不存在冗余单词全模式:把文本中所有可能的词扫描出来,存在冗余搜索引擎模式:在精确模式基础上,对长词再次拆分常用函数...原创 2020-02-07 20:21:43 · 1079 阅读 · 0 评论 -
Pandas数据清洗实例(拆列,列计算,列值成行)
学习python 有一段时间了,一直徘徊与基础,最近接了一个解析数据的任务,算是学习以来第一次实战,故而作此记录。问题解析:为了节省数据存储空间,信息以字符串存在了一个单元格中,我们需要的是时间的首尾值,最后要做差计算,使用BI 软件(spotifire)进行页面展示。原始数据如图1.第一步要解决的问题是时间转换问题因为数据中step_times是long格式(timestamp类似,l...原创 2019-12-06 17:11:44 · 353 阅读 · 0 评论 -
Python_时间转化
日期格式:2019-08-01 00:00:00时间戳格式:1564588800一、字符串转时间戳默认import timedef time_str_to_timestamp(string_time, _format="%Y-%m-%d %H:%M:%S"): return int(time.mktime(time.strptime(string_time, _format...转载 2019-11-29 09:56:52 · 113 阅读 · 0 评论 -
Python基础_运算符
算术运算符逻辑运算符关系运算符(比较运算符)条件运算符赋值运算符1 算术运算符// 整除** 幂运算% 余数 a = 2 ** 3 # 8 a = 16 ** 0.5 #4 a = 10%3 #12 逻辑运算符not 非and 与or 或非布尔值运算Python 会将其当做bool 值进行运算,最终返回原值and 如果第一个值False 直接返回第一...原创 2019-11-29 00:22:46 · 488 阅读 · 0 评论 -
python基础学习_对象
一 对象(object)程序运行过程中,所有数据均会存储到内存中再运行对象就是内存中专门用于存储数据的区域对象实际上就是一个容器一切皆对象二 对象结构每个对象中均保存三种数据:id(标识):用来标识对象的唯一性可以通过id()查看id由解析器生成,在cpython 中 id就是对象的内存地址对象一旦创建,id永远不能再改变type表示当前对象所属类型类型决定了...原创 2019-11-28 01:49:51 · 118 阅读 · 0 评论 -
Python基础学习_数据类型
一 数值1.整数(int)1)大小没有限制,可以是无限大2)如果数字过大,可以使用下划线作为分隔符3) 其他进制整数十进制数字不能以0开头二进制 0b开头八进制0o开头十六进制 0x开头2.浮点数(float)浮点数进行运算时,会得到一个不精确的结果3 复数()二 字符串\ 转义字符,可以在字符串中使用特殊字符s = “\子曰:“学而时习之””\t 制表符 相当于 t...原创 2019-11-28 01:04:48 · 112 阅读 · 0 评论 -
Python基础学习_变量&标识符
一 变量与字面量1.Python 中使用变量无需声明,直接赋值2.不能使用没有赋值的变量,使用未赋值的变量会报错:NameError:name is not defined二 标识符:Python 中所有可以自主命名的内容均为标识符:函数,变量,类注意标识符遵循标识规范:1)标识符中含有字母、数字、_, 不能用数字开头a_1 ab_e 合法1ab 不合法 报错 invalid...原创 2019-11-28 00:25:13 · 295 阅读 · 0 评论 -
Pandas 数据排序与过滤
**1 排序1.1 sort_value()参数说明by指定列名(axis=0或’index’)或索引值(axis=1或’columns’)axis若axis=0或’index’,则按照指定列中数据大小排序;若axis=1或’columns’,则按照指定索引中数据大小排序,默认axis=0ascending是否按指定列的数组升序排列,默认为True,即升...原创 2019-11-12 15:06:51 · 503 阅读 · 0 评论 -
字符串格式化
字符串的格式化方法分为两种,分别为占位符(%)和format方式。占位符方式在Python2.x中用的比较广泛,随着Python3.x的使用越来越广,format方式使用的更加广泛。一 占位符(%)示例%dage = 29print("my age is %d" %age)#my age is 29%sname = "makes"print("my name is %s" %...转载 2019-10-31 23:13:39 · 299 阅读 · 0 评论 -
Python爬虫学习
1.图片爬取网络图片的格式:http://www.example.com/picture.jpg代码示例:```pythonimport requestsimport osurl = "http://****"root = "d://pics//"path = root+url.split('/')[-1]try:. if not os.path.exists(root):...原创 2019-10-30 07:22:36 · 93 阅读 · 0 评论 -
FLask _web
转载至 https://www.e-learn.cn/content/qita/2721473**Flask**0.Flask简介Flask是一个基于Python开发并且依赖jinja2模板和Werkzeug WSGI服务的一个微型框架,对于Werkzeug本质是Socket服务端,其用于接收http请求并对请求进行预处理,然后触发Flask框架,开发人员基于Flask框架提供的功能对请...转载 2019-10-21 16:19:46 · 106 阅读 · 0 评论