- 博客(20)
- 收藏
- 关注
原创 selenium+pandas 爬取实时汇率
本文主要展示如何获取动态加载页面中的信息(比如网页表格延迟加载),另外涉及selenium函数其他用法,xpath使用方法以及HTML知识有兴趣读者可以自己探索💗。
2024-04-15 06:23:52 1323 3
原创 关于xgboost如何加载老版本模型的技巧分享
关于xgboost如何加载老版本模型的技巧分享关于xgboost如何加载老版本模型的技巧分享背景:随着机器学习越来越火爆,第三方库也在不断更新迭代,那么如何将老版本库训练处的模型适配到新环境中,相信是大家早晚会遇到的问题。简单来说解决方案有两种:1.用新的环境,原来的数据重新训练一次(不够优雅);2.直接将现有模型升级到新版本兼容模式目的:本文分享xgboost如何将老版本模型升级到新版,满足项目环境要求实操过程环境申明原有环境:python=3.6.6 xgboost=0.9目标
2022-04-21 12:38:19 2593
原创 推荐算法相关总结
推荐算法相关总结引言回首2015年至今,新能源汽车产业,在经历由国家鼓励政策鞭策下的传统燃油机主机厂,到蔚来、小鹏、特斯拉为代表的坚定新能源赛道的造车新势力,再到小米、华为、百度这些呼之欲出的互联网大厂,背后的逻辑是“流量”,传统主机厂是不能意识到互联网产业下“流量”的重要性,同时这也是互联网厂在前期用户流量不足时没想着造车的原因。所以在这样一个“流量”不断集聚的产业,如何“引流”将成为我们需要思考的问题,大方向来说,品质、服务、文化,建立认同感,而推荐系统正处于“引流”的关键位置,因为推荐系统
2021-04-07 17:03:22 1049
原创 pyspark——functions.when踩坑记录
pyspark——functions.when踩坑记录背景介绍案例分享背景介绍我们一般认知觉得判断逻辑在后的会覆盖判断逻辑在前的判断结果,可是结果是枉然案例分享下面展示一些 内联代码片。# 原始数据spark_rdd = spark.sparkContext.parallelize([ (123, "Katie", 19, "brown"), (456, "Michael", 22, "green"),
2021-02-20 14:56:12 3681
原创 pyspark创建数据
pyspark创建数据在日常工作我们经常需要制造数据,证明写的代码与自己的预期相同,借助excel创建数据就不赘述,纯粹代码构建数据代码如下。spark_rdd = spark.sparkContext.parallelize([ (123, "Katie", 19, "brown"), (456, "Michael", 22, "green"), (789, "Simone", 23, "blue")])# 设置dataFrame将要使用的数据模型,定义列名,类型和是否为能
2021-02-05 14:50:40 354
原创 pyspark运行加速方法思考(一)
pyspark运行优化pyspark工作原理工作中的联想案例借鉴总结pyspark工作原理如上图所示,pyspark并没有像dpark一样用python重新实现一个计算引擎,依旧是复用了scala的jvm计算底层,只是用py4j架设了一条python进程和jvm互相调用的桥梁。driver: pyspark脚本和sparkContext的jvm使用py4j相互调用; executor:由于driver帮忙把spark算子封装好了,执行计划也生成了字节码,一般情况下不需要python进程参与;仅
2020-06-07 23:55:00 2178
原创 pyspark之RDD与dataframe
pysaprk中drr与dataframerddpairRDDDataframeRDD和DataFrame的区别rddRDD是一个抽象的分布式数据集,拥有丰富的操作函数,包括基本的map()、flatmap(),filter()函数,集合类函数如union()函数,intersection()函数,subtract()函数,和行动类函数,如collect(),count(),take(),top(),ruduce(),foreach()。换句话说,RDD是非常灵活数据集合,其中可以储存类型相同或者不同
2020-06-07 23:31:04 619
原创 如何在jupyter中访问创建的虚拟环境
引言在我们日常工作做,配置环境是十分繁琐的问题。尤其当你来了一个新项目,如果盲目地直接用到你自己的环境中,很容易造成环境的依赖的错位,让你原有的项目都跑步起来!创建虚拟环境我是一个重度以来Python学习办公的人,这边以Conda为例:创建环境命令:conda create -n your_env_name python=X.X(2.7、3.6等)启用环境命令:conda activate your_env_name查看已经安装的环境conda env list其中标记为*的环境
2020-05-23 16:51:41 1044
原创 git介绍性总结
GIT介绍git简单介绍基本概念基本操作git简单介绍git是一个版本记录工具,会记录你每一次的修改过程以及内容。与linux系统中CVS和SVN集中式版本控制系统不同,Git采用分布式管理方式。分布式管理就是每个人都“备份”了一份管理仓库,即使一个仓库损坏,还能直接从别的仓库再备份一份。基本概念工作区(Working Directory)就是你在电脑里能看到的目录版本库(Repository)工作区有一个隐藏目录.git,这个不算工作区,而是Git的版本库。Git的版本库里存了很
2020-05-12 18:02:57 173
原创 pyspark学习(二)
pysaprk学习创建连接1、连接sparkfrom pyspark.spl import SparkSessionspark = SparkSession.builder.appName('my_first_app_name').getOrCreate()读取数据2、读取jsonfile = r"D:\hadoop_spark\spark-2.1.0-bin-hadoop2.7...
2020-02-13 21:43:28 448
原创 pyspark入门(一)
pyspark入门基础pyspark简介首先我们都应该清楚apache是Scala编写的程序,而最近几年吟哦日机器学习的兴起,同时降低科技人才使用编程语言的代价,python这种动态语言成为2019年最受欢迎的编程语言之一(java依然是岿然不动的架构语言,C/C++最为语言之祖在底层设计依然是他的天下),为了是的数据应用于生产变得更加简单,pyspark应运而生,你也可以直接使用python...
2020-02-05 22:37:14 530
原创 利用python 获取股票信息
在生活中,我们可以通过各类股票软件查看股票行情,然而更多时候我们希望能够有渠道方便的获得数据,进行数据的分析,结合自己的算法做出自己的判断。
2020-02-01 15:22:02 1022
原创 git成长之路(一)
git成长之路(一)git常用命令github与pycharm的结合使用git常用命令使用环境:windows10global user.name ""global user.email ""创建用户名和用户的email 随便设置,为了标识是谁在进行代码操作git init到你制定的文件夹下,初始化文件夹git status查看文件夹下的文件状态git add...
2020-01-31 17:18:38 186
原创 python 类的理解
python类的编写类的使用并不是什么神奇的东西,而是一种程序员思维,有利于代码的规整,并避免重复劳动。class name(object) def __init__(self,a1,a2): self.a1 = a1 self.a2=a2 def fun(self,v1,v2): 函数 总结:1、self不可少,其他与正常函数编写没有区别;2、__init __函数用于...
2020-01-19 14:07:57 213
原创 matplot配置中文格式
matplot配置中文格式背景:在python中因为没有配置中文字体库,所以不能进行文字的正确显示。本文的目的是一方面解决中文正确显示问题,另一方面,提供更多的中文字体作为对照。解决方案:最简单的办法是在使用代码绘制图片前进行代码设置,代码如下:myfont = matplotlib.font_manager.FontProperties(fname='C:/Windows/Fonts/...
2020-01-19 12:57:38 574
原创 python 绘图笔记
python 绘图笔记##1、 seaborn常用工具sns.distplot()绘制分布图,其中参数kde=False,自动绘制各部分的个数或者频次,类似于柱状图sns.pointplot()绘制折线图,但是在实际写代码过程中或许回到原生态的matplotlib中或许是更好的选择sns.barplot()绘制柱状图,也可以利用countplot()绘制出类似的柱状图,代码层面更为简...
2020-01-13 23:41:42 334
原创 pandas dataframe 如何打乱数据
pandas dataframe 如何打乱数据背景主要是我们在进行机器学习训练过程中,我们经常拿到的数据是有序,但是为了取得的数据能够覆盖每一个分布,需要对数据进行重新洗牌。三种方法1.df.sample()df.sample(frac=0.5)frac表示数据集中挑选出数据的比例如上述代码,df是你的数据集,frac=0.5,表示随机挑选50%的数据。2.应用sklearn中s...
2019-12-18 12:27:32 4814
原创 python 绘制3D视图
python 绘制三维图需要调用的package定义plotmy3d函数主函数总结需要调用的packageimport matplotlib.pyplot as pltfrom mpl_toolkits.mplot3d import Axes3Dimport pylabimport plotly.offline as pyimport plotly.graph_objs as go...
2019-11-30 15:50:43 1298
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人