学习笔记
文章平均质量分 77
yuxj记录学习
这个作者很懒,什么都没留下…
展开
-
Pyflink教程(三):自定义函数
pyflink原创 2023-03-08 15:38:00 · 757 阅读 · 0 评论 -
Pyflink教程(四):datastream_api
pyflink原创 2023-03-08 15:29:17 · 1701 阅读 · 7 评论 -
Pyflink教程(二):table_api&sql
pyflink原创 2023-02-24 11:04:37 · 748 阅读 · 0 评论 -
Pyflink教程(一):table_api&sql
pyflink table_api 学习笔记原创 2023-02-23 10:42:18 · 1951 阅读 · 0 评论 -
linux搭建pyspark环境,本地pycharm使用远程连接
linux搭建pyspark环境,本地pycharm使用远程连接原创 2022-11-07 15:13:58 · 1879 阅读 · 0 评论 -
在AWS-EMR上使用Ranger管理Atlas权限
aws-emr上安装ranger atlas,并使用ranger管理atlas权限原创 2022-06-07 16:02:03 · 958 阅读 · 3 评论 -
sagemaker在终端节点部署Tensorflow模型并调用
tensorflow2.0 h5 sagemaker 终端节点原创 2022-02-23 17:50:50 · 1189 阅读 · 0 评论 -
Linux下安装Anaconda3
背景本机信息:VMware Centos6需安装:Anaconda3-2021.05-Linux-x86_64.sh去官网下载个最新的就行。开始安装下载完成后,切换用户。 切换到安装包路径 cd /opt/software sh Anaconda3-2021.05-Linux-x86_64.sh 按提示输入yes,然后一直空格阅读说明 然后根据提示输入你想安装anaconda的位置 然后在来个yes成功,exit 重新登录该用户,就会发现前面有了个ba原创 2022-01-05 10:41:45 · 362 阅读 · 0 评论 -
机器学习-sklearn模型选择和最优参数选择
写在前言 当你决定调用sklearn中提供的模型去做回归或分类等操作的时候,在不考虑数据优劣的情况下,你就只能依赖sklearn中提供模型和对应模型参数来进行拟合和参数优化来达到最后的最优结果,这个时候大部分人就会处在我到底选择哪个模型,选择了模型之后我模型参数我该怎么选什么的纠结之中,因为一个模型的选择和参数的选择就决定了你的结果的上限是什么。比如,你现在要做一个二分类预测,手里有10w左右的数据,在sklearn中你可以选择的模型就很多了,临近、支持向量机...原创 2021-09-06 11:22:26 · 8629 阅读 · 1 评论 -
机器学习-随机森林(RandomForest)详解
1.什么是随机森林随机森林就是通过集成学习的思想将多棵树集成的一种算法,它的基本单元是决策树,而它的本质属于机器学习的一大分支——集成学习(Ensemble Learning)方法。 解读下上面的话:1.随机森林属于集成算法,属于集成算法中的bagging,另一种就是boosting了,集成意味着着该算法是多个算法组合而成 2.随机森林是由决策树集成的,这个很好理解,单木为树,多木成林...原创 2021-09-02 10:42:01 · 46251 阅读 · 1 评论 -
机器学习-逻辑回归(LogisticRegression)详解
逻辑回归详解1.什么是逻辑回归 逻辑回归是监督学习,主要解决二分类问题。 逻辑回归虽然有回归字样,但是它是一种被用来解决分类的模型,为什么叫逻辑回归是因为它是利用回归的思想去解决了分类的问题。 逻辑回归和线性回归都是一种广义的线性模型,只不过逻辑回归的因变量(Y)服从伯努利分布(离散分布),而线性回归的因变量(Y)满足的是高斯分布(正态分布),因此他们两个是很相似的(PS:线性回归是拟合一条直线,而逻辑回归是根据sigmoid将线性变成非线性,所以去掉sigmoid,他们一样的...原创 2021-08-27 16:10:16 · 15626 阅读 · 1 评论 -
streamsets-datacollector 安装与启动
streamsets-datacollector-all-3.21.0 安装步骤1.安装jdk8jdk安装网上教程很多,在这就不详细记录了2.下载streamsets官网https://archives.streamsets.com/index.html 注册账户后下载 Full TarballTarball for Linux(Tarball sha1)在下载的过程中 我们可以创建几个能用到的文件夹mkdir/data/streamsets/datamkdi...原创 2021-03-26 17:20:57 · 3148 阅读 · 0 评论 -
centos 安装superset教程
首先python 版本必须是3.6以上,因为用的pip的安装的 ,如果低于3.6 会提示说是不支持<3.6版本。1.最后创建一个虚拟环境,这些做避免和其他包起冲突(ps: 比如superset依赖的有些包需要低版本的,比如pandas之类python常用包,如果降低版本怕对其他项目造成影响#mkdir superset#cdsuperset# pipinstall virtualenv#virtualenv venv#. ./venv/bin/activate这样就O...原创 2020-06-17 17:23:19 · 686 阅读 · 0 评论 -
机器学习特征选择-逻辑回归RandomizedLogisticRegression
data = pd.read_excel(filename)x = data.iloc[:,:8].as_matrix()y = data.iloc[:,8].as_matrix()from sklearn.linear_model import LogisticRegression as LRfrom sklearn.linear_model import RandomizedLog...原创 2019-10-07 16:55:50 · 3684 阅读 · 0 评论 -
python 操作gremlin
安装 我这用的是python3 ,但是python2跟这个差不多 我都试了pip3 install gremlinpython下面两种连接方式,看想用那种了,性能什么的都没测试1.python代码请求graph = Graph()g = graph.traversal().withRemote(DriverRemoteConnection('ws://hosts:port/gremlin','g...原创 2018-04-28 10:55:32 · 6804 阅读 · 2 评论 -
python3 selenium 模拟登陆 获取cookies 保存到redis(安居客)
# -*- coding: utf-8 -*-# @Time : 2018/9/18 9:23# @Author : yuxjimport timeimport jsonfrom selenium import webdriverfrom selenium.webdriver.support.ui import WebDriverWait # 等待元素加载的from s...原创 2018-10-08 13:31:23 · 1253 阅读 · 0 评论 -
python 中国裁决文书网 爬虫,完整版!!!
代码:import execjsimport requestsheaders={ "Accept":"*/*","Accept-Encoding":"gzip, deflate","Accept-Language":"zh-CN,zh;q=0.8","Cache-Control":"max-age=0"原创 2018-10-09 15:45:07 · 6089 阅读 · 5 评论 -
python3对k-mean算法的理解(转)
转载:https://blog.csdn.net/zuoyonggang123/article/details/79879557 多谢 1.随机选取k个质心(k值取决于你想聚成几类) random.sample(dataSet, k) k你是想聚类的个数 dataset是数据集合 是数组 2.dataSet 取出一条数据 然后分别与centroidList中的k的...转载 2018-10-30 15:16:53 · 764 阅读 · 0 评论 -
数据的归一化处理和标准化处理
#值的归一化处理 1) 数据为什么做归一化处理 解析: 假设一个神经元有两个输入分别是x1和x2,权重分别是w1和w2,那么该神经元的信号加权求和为x1w1+x2w2。再假设x1属于[0~1],x2属于[100~1000],那么x2远远大于x1,那么x1w1就可以忽略不计,整个加权求和就只由x2w2来决定,小的信号就被淹没了! 所以需要将x1和x2都要做数据归一化处理避免造...原创 2018-10-30 15:25:16 · 2686 阅读 · 0 评论 -
python3 操作mysql数据库,通用性方法
简介: 改方法是公司的一个老大哥写的,觉得非常有用,拿来学习和记录下。简单说明:该方法为python3操作数据库,分别是增删改查四种方法。直接调用即可! 1)查:query(self, sql, ret_type='all') 参数解释: sql为查询的sql。ret_type 有三种类型 分别是all,count,one all为查询返回全部数...原创 2019-01-04 17:11:31 · 575 阅读 · 0 评论 -
赶集爬虫字体解码
from fontTools.ttLib import TTFontbase64_str = re.findall("charset=utf-8;base64,(.*?)'\)", page_source)[0]font = TTFont(BytesIO(base64.decodebytes(base64_str.encode())))cmap_ = font['cmap'].tabl...原创 2019-07-03 15:31:23 · 229 阅读 · 0 评论 -
python 数据处理之分箱操作
什么是分箱?简单点说就是将不同的东西,按照特定的条件放到一个指定容器里,比如水果 把绿色的放一个篮子里,红色一个篮子等等,这个篮子就是箱,而水果就是数据 颜色就是条件什么样式的数据要进行分箱数据主要分为连续变量和分类变量,分箱的操作主要针对于连续变量。为什么要对数据进行分箱操作稳定性,时间复杂度,看的舒服,提高准确度 等等分箱分为 有监督和无监督先说有监督,意思就是 个...原创 2019-08-28 17:48:42 · 14431 阅读 · 1 评论 -
Python实现CART算法生成决策树
https://blog.csdn.net/u012421852/article/details/79840409选择决策树 最优分割点或者是起始点gini越小则该向量越好转载 2019-08-28 17:50:36 · 973 阅读 · 0 评论 -
从移动端爬取-贝壳数据
1.下载模拟器我用的是pc的手机模拟器爬取-夜神模拟器,当然也可以使用自己 手机进行爬取 夜神下载 :https://www.yeshen.com/pg/yeshen?renqun_youhua=1797214下载完成 打开后,点击设->WLAN->修改网络,给连接的wifi设置代理。2.下载Fiddler https://www.telerik.com/...原创 2019-09-19 13:46:23 · 3862 阅读 · 1 评论 -
java 连接gremlin 简单的操作
org.apache.tinkerpop.gremlin maven 安装包 主要是driver 和 croe 反正都安装了把http://tinkerpop.apache.org/docs/current/reference/ 主要的语句都在这里import org.apache.tinkerpop.gremlin.driver.Client;import org.apache.tinker...原创 2018-04-28 09:22:58 · 9689 阅读 · 5 评论