自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+

迷途无归的博客

没有人知道哪条路才是正确的,选择一个一生不悔的走下去

  • 博客(152)
  • 资源 (3)
  • 收藏
  • 关注

原创 dolphinscheduler 补数据

怎么通过dolphinscheduler补数据?这里涉及到定时管理的一个细节,就是定时管理是否上线。定时任务参数设定如下:补数据的时间调度范围:方案1:定时任务下线状态,补数据的时间是按天进行的并行执行:每日执行一次,此处会执行13号方案2:定时任务在线状态,补数据的时间是按照定时管理中设定的时间串行执行:每日两次,顺序执行并行执行:每日两次,并发执行注:此处显示的时间是东八区时间(格林威治时间 + 8: 00),定时参数填的是格林威治时间...

2021-05-20 14:25:38 17

原创 在aws的emr上部署dolphinscheduler

一、相关连接1、dolphinscheduler单机部署说明2、dolphinschedulerd的git源码3、aws的s3访问说明4、aws的s3 Endpoint说明二、部署目标本文dolphinscheduler的部署目标是实现存储和计算完全分离,数据和资源存储在s3上、计算采用emr集群进行动态扩充管理。三、流程3.1 下载源码并修改下载源码git clone -b 1.3.6-release https://github.com/apache/dolphinscheduler

2021-05-18 19:47:20 56

原创 vs code go 使用

golang 官网下载(选择自己需要的版本):https://golang.org/dl/vs code 插件安装:在 VS Code 中,使用快捷键:command+shift+P,然后键入:go:install/update tools,将所有的选项都勾选上,然后点击 OK 即开始安装。修改GO111MODULE的模式,一遍go module 去vendor中找资源go env -w GO111MODULE=on...

2021-04-15 20:23:28 56

原创 Not a valid key: bloopInstall

vs code 环境编译scala代码通过metals 的 import build出现错误异常[error] Not a valid command: metalsEnable[error] Not a valid project ID: metalsEnable[error] Expected ':'[error] Not a valid key: metalsEnable[error] metalsEnable[error] ^sbt exit: 1time

2021-03-17 17:40:17 32

原创 vs code python使用

插件安装1、python 附带安装pylint (或者pip install pylint),pylint轻量级python代码检测2、arepl:实时代码调试

2021-03-14 23:34:24 87

原创 vs code git使用流程

一、准备工作1、本地电脑已经安装了git环境,并且配置了账号和密码2、一个已存在的git项目、并且有项目分支二、使用流程1、拉取代码a、点击左下角轮子,然后在弹出框中点击“commend palette”;或者用快捷键ctrl+Shift+P打开commend paletteb、复制项目地址c、克隆项目1)在打来的commend palette中输入"git:clone",软件会自动提示,点击即可;然后黏贴项目地址到框内,并点击回车;在弹出的文件夹选项中,选择项目文件保存的路径,然后点击

2021-03-10 18:50:03 32

原创 神经网路语言模型(NNLM)详细介绍

本文主要介绍一篇年代久远但意义重大的论文A Neural Probabilistic Language Model(2003),其意义重大的一点在将神经网络引入语言模型的训练中,并得到了词向量这个副产物,即万物皆可Embedding的由来就在这里。本文采用最通俗的例子来讲这个神经元模型的原理、代码和缺点。一、原理1、原型图1、首先拿到一篇文章,需要把文章中的词全部提取出来并去重,得到VVV ,初始化词向量CCC(一个∣V∣|V|∣V∣x mmm大小的矩阵,m),...

2021-01-27 17:49:18 272

原创 spark on yarn申请资源的计算方法

最近在申请资源时,遇到资源申请和预期不匹配一、现象资源申请如下(动态内存申请):任务提交最大运行内存如下:预期container: 10 + 1 = 11cpu : 102 +1 = 21memory: 10( 4 * 1024)+ 512 = 41,472内存和实际有较大差距二、分析1、yarn和spark的一些概念a、spark任务会根据自己的executors的个数向yarn申请对应个数的container来跑任务,每个executor相当于一个JVM进程。b、当--d

2021-01-13 19:48:06 235 5

原创 scrapy 分布式 redis增设密码

redis分布式爬虫 在原有基础上redis 增设密码,需要进行一定的设置1、settings.pyREDIS_HOST = '172.16.1.101'REDIS_PORT = 6379REDIS_PARAMS = {'password': 'wR2E&EblAbKNq1Ub',}2、起始url设置:run_scrapy_redis_start_url.sh#!/bin/bashsource /etc/profileredis-cli -a 'wR2E&EblAbK

2020-12-31 16:10:38 25

原创 redis 增设密码

延续之前redis的操作,增设密码;防治病毒注入等1、整个流程如下(base) [hilqiqi0@iZbp1dvr86b5tjwow6z3b8Z ~]$ sudo service redisd stop Stopping ...Redis stopped(base) [hilqiqi0@iZbp1dvr86b5tjwow6z3b8Z ~]$ sudo vi /etc/redis/6379.conf(base) [hilqiqi0@iZbp1dvr86b5tjwow6z3b8Z ~]$ sud

2020-12-31 15:13:55 34 1

原创 hbase 简单使用(命名空间)

hbase 基于命名空间的使用helplist创建命名空间create_namespace ‘my_namespace_test’查看命名空间list_namespacedescribe_namespace ‘my_namespace_test’创建表,及其列簇(单列簇、多列簇)create ‘my_namespace_test:my_table_test_1’, ‘aaaa’create ‘my_namespace_test:my_table_test_2’, ‘aaaa’,‘bbbb

2020-09-27 14:02:03 235

原创 会讲故事的人

成功的人,大多都是很会讲故事的人;同样一个故事,有的人讲出来就变成了另外一个故事或者含糊不清,使得听故事的人很迷糊,严重的让人抓狂、厌烦,因为听这个故事浪费了时间;有的人却能把屁一样的故事说的天花乱坠,使得听者很愿意继续听下去;而大多数人更多的是叙述了一件事而已。最经典的例子就是瑞幸咖啡,创业者就是一个很会讲故事的人,能够让投资人投钱就是要让对方认同你的故事,中国是一个有着14亿消费者的市场,还是一个未被开发的咖啡市场,若是一个一年喝一杯咖啡,就是几十亿的收入,听起来就令人兴奋不已,如此有吸引力的故事岂会

2020-09-21 22:58:32 28

原创 sql表记录邻近计算

引入:窗口函数(row_number、LEAD)原始数据表表名aaa需求按照uid,cid对ts邻近记录进行减法,获取记录的停留时间sql如下SELECT uid,cid,chapter,ts,action_type,row_number() over(partition by uid,cid order by ts) as row_rank,LEAD(ts, 1) OVER (partition by uid,cid ORDER BY ts) AS next_tsFROM aaa;

2020-07-09 15:35:09 72

原创 git简要流程

前提是已经配置好了git的环境,包括:用户名和密码# 初始化git init # 远程链接git remote add origin git@192.168.1.108:xxxxxxx/rpc_server.git# 切换分支git checkout -b dev# 获取代码git pull origin dev# 提交信息git commit -a -m 'newer 修正'# 上传到dev分支git push origin dev...

2020-07-03 14:21:50 98

原创 peewee常用技巧

一、数据库链接正常链接通过dburl字符串指定数据库from playhouse.db_url import connectfrom playhouse.reflection import generate_modelsdburl = "mysql+pool://root:A2xIX@Y4H3x67tzr@rr-xxxxxxxxxxx.mysql.rds.aliyuncs.com:3306/recommend_features?max_connections=3&stale_timeout

2020-05-26 19:51:52 256

原创 matplotlib图例中文乱码

第1步,找到配置文件我们可以用下面的代码找到 matplotlib 加载的配置文件路径。import matplotlibmatplotlib.matplotlib_fname()第2步,下载文件到指定路径simhei下载的两个路径,我都加了http://www.font5.com.cn/zitixiazai/1/151.htmlhttps://www.wfonts.com/font/simhei第3步,修改配置文件先备份matplotlibrc,避免修错了,找不回原来的配置修改内

2020-05-13 13:14:36 117

原创 ale_interface/ale_c.dll OSError: [WinError 126] 找不到指定的模块。

一、问题找不到gym加载atari环境出错,百度搜出的答案无解(Windows下)【https://blog.csdn.net/severe777777/article/details/86162357】和【https://blog.csdn.net/senjie_wang/article/details/84073823】二、解决原版路径:【https://github.com/open...

2020-04-06 19:29:04 2457

原创 jupyter notebook : generator_to_async_generator

真是日了狗了,conda下新环境安装jupyter notebook,从没有像今天不顺ImportError: cannot import name 'generator_to_async_generator'解决pip install -U prompt-toolkit==1.0.15

2020-04-04 17:28:59 376 1

原创 python 运行时出现fixture xxx not found

一、问题在pycharm中运行带有pytest包的代码会出现如下错误:E fixture 'a' not found> available fixtures: cache, capfd, capfdbinary, caplog, capsys, capsysbinary, doctest_namespace, monkeypatch, pytestconfig,...

2020-04-04 13:14:51 1411 1

原创 机器学习实战 —— 决策树(sklearn api)

代码import pandas as pdfrom sklearn.preprocessing import LabelEncoderfrom sklearn import treefrom sklearn.externals.six import StringIO# pip install pydotplus# pip install graphvizimport pydotpl...

2020-03-15 02:18:31 316

原创 机器学习实战 —— 决策树

代码"""用字典存储决策树结构:{'有自己的房子':{0:{'有工作':{0:'no', 1:'yes'}}, 1:'yes'}}年龄:0代表青年,1代表中年,2代表老年有工作:0代表否,1代表是有自己的房子:0代表否,1代表是信贷情况:0代表一般,1代表好,2代表非常好类别(是否给贷款):no代表否,yes代表是pickle包可以将决策树保存下来,方便下次直接调用"""...

2020-03-10 19:27:16 169

原创 k近邻算法——球树

一、概念KD树算法虽然提高了KNN搜索的效率,但是在某些时候效率并不高,比如当处理不均匀分布的数据集时,不管是近似方形,还是矩形,甚至正方形,都不是最好的使用形状,因为他们都有角。一个例子如下图:如果黑色的实例点离目标点星点再远一点,那么虚线圆会如红线所示那样扩大,导致与左上方矩形的右下角相交,既然相 交了,那么就要检查这个左上方矩形,而实际上,最近的点离星点的距离很近,检查左上方矩形区域已...

2020-03-05 01:56:00 527

原创 k近邻算法——kd树

kd树(K-Dimensional Tree)是一种对K维空间中的实例点进行存储以便对其进行快速检索的树形数据结构。kd树是二叉树,表示对K维空间的一个划分 (partition).构造Kd树相 当于不断地用垂直于坐标轴的 超平面将k维空间切分,构成一系列的k维超矩形区 域.Kd树的每个结点对应于一个k维超矩形区域。注:kd...

2020-03-02 18:42:32 288

原创 k近邻算法——总结

k近邻法(k-nearest neighbor, kNN)是一种基本分类与回归方法。k近邻法算法简单、直观:给定一个训练集,在训练数据集中找到与该实例最邻近的k个实例,这k个实例的多数属于某个类,就把该输入实例分为这个类。...

2020-02-29 02:49:46 223

原创 机器学习实战_K近邻算法 ——手写数字预测(sklearn api)

一、序机器学习实战_K近邻算法 ——手写数字预测 调用的是自己编写分类器classify0,主要是为了学习理论原理;在实际是项目中通常调用工具包的api接口,比如sklearn,这也体现了python的一个便利性,不用总是自己造轮子。虽然python提供了很多机器学习的工具包,但是也是在我们了解和熟悉算法的基本实现原理。二、sklearn中KNeighborsClassifier的介绍官方a...

2020-02-28 02:49:38 305

原创 机器学习实战_K近邻算法 ——手写数字预测

代码import operatorimport numpy as npfrom os import listdirdef classify0(inX, dataSet, labels, k): """ 函数说明:kNN算法,分类器 Parameters: inX - 用于分类的数据(测试集)(1*m向量) dataSet - 用...

2020-02-25 18:32:04 199

原创 机器学习实战_K近邻算法 —— 约会预测

一、代码说明:step1、step2是为了方便数据查看;step3、step4可单独运行。import numpy as npimport operatordef classify0(inX, dataSet, labels, k): """ 函数说明:kNN算法,分类器 Parameters: inX - 用于分类的数据(测试集)(1*m向量...

2020-02-25 02:28:02 142 1

原创 机器学习实战_K近邻算法 —— 电影分类

一、数据参考二、代码import numpy as npimport operatordef createDataSet(): """ 函数说明:创建数据集 Parameters: None Returns: group - 数据集 labels - 分类标签 """ # 七组二维特...

2020-02-25 00:20:07 179

原创 django-allauth

django-allauth login、signup等url覆盖问题:现在用的是django 2.2.5 版本,django-allauth 0.41.0 版本,自定义的app目录下的templates对应的account下的login.html、signup.html 不能覆盖原有的。方法一:添加DIRS路径TEMPLATES = [ { 'DIRS': [ ...

2020-01-17 10:36:10 209

原创 数据维度

特征挖掘和衍生

2020-01-14 15:57:36 173

原创 hadoop任务调度远程访问代理设置

SwitchyOmega浏览器代理转发,访问远程hadoop集群任务运行状态

2020-01-10 17:02:19 201

原创 无法抓取的视频,暴力破解之路

一、经历1、末年末月末日在一个夜黑风高的夜晚,脑袋一热在网上花了大价钱买了某某的一个培训课程。开始时候该平台还没有对用户进行时间限制,突然在网页上显示剩余多多天,...

2019-12-29 21:26:32 4146 7

原创 python 定时任务

一、规范化每次写完代码,加到定时任务就一堆事;加个流程规范化二、流程规范化1、编写python代码编写了一个demo.py 代码,可在anaconda3 的环境中运行,在文件所在目录下执行命令:python demo.py(base) hilqiqi0@XNDM-Computing:/mnt/data2/hilqiqi0/workspace/example$ python demo...

2019-12-18 17:55:33 169

原创 easy scheduler 一些使用技巧

1、脚本代码控制中间脚本执行if [ $((${hour}%6)) == 0 ];then echo "运行"else echo "不在运行时间跳过"; exit 0fi参数 hour : $[HH]

2019-10-11 11:45:53 344

原创 机器学习实战SVM——smo笔记

在代码中, 第i样本的预测类别遇到的疑惑,不知道这个函数是如何得来。fXi = float(multiply(alphas,labelMat).T*(dataMatrix*dataMatrix[i,:].T)) + b # 第i样本的预测类别解决:根据误差函数获知,函数如下,其中 K(xj,x)K(x_j,x)K(xj​,x) 表示 核函数 (此处采用的是内积)参考:https://...

2019-10-08 11:30:42 242

原创 qt5 项目应用

0、项目简要介绍该项目主要适用用于淘宝、京东等电商,商家制作模板后进行批量套图,从而节省了大量的人力和时间成本。主要功能包括模板套图、详情页面切割、常用图片格式保存等。具体的功能介绍详见视频。本篇文章主要介绍一些简单的qt5的使用,不涉及功能核心代码。1、界面效果展示...

2019-09-04 20:41:52 394

原创 scrapy 单机版 到 scrapy 分布式 修改流程

1、设备scrapy 单机版:1台机器scrapy 分布式:至少2台机器2、linux环境配置2.1 redis安装具体见:linux redis 完整安装过程2.2 python环境安装借助anaconda管理python具体见:linux anaconda安装和环境配置3、代码修改3.1 setting.py修改在setting中添加如下代码DUPEFILTER_CL...

2019-09-04 20:03:19 282 2

原创 linux anaconda安装和环境配置

anaconda过程1、获取anaconda包并执行安装wget https://repo.anaconda.com/archive/Anaconda3-2019.07-Linux-x86_64.shsh Anaconda3-2019.07-Linux-x86_64.sh2、添加环境并激活sudo vi /etc/profilesource /etc/profilesud...

2019-09-02 19:57:52 1733

原创 linux redis 完整安装过程

一、安装流程功能:系统重启后,能够自动启动redis服务[hilqiqi0@iZbp1dvr86b5tjwow6z3b8Z /home/hilqiqi0]$mkdir redis[hilqiqi0@iZbp1dvr86b5tjwow6z3b8Z /home/hilqiqi0]$cd redis/[hilqiqi0@iZbp1dvr86b5tjwow6z3b8Z /home/hilqiqi0...

2019-08-30 20:44:24 162 1

原创 感知机 —— 算法(对偶形式)

算法流程输入:线性可分的数据集T={(x1,y1),(x2,y2),⋅⋅⋅,(xN,yN)}T= \left\{ (x_1,y_1), (x_2,y_2),···,(x_N,y_N)\right\}T={(x1​,y1​),(x2​,y2​),⋅⋅⋅,(xN​,yN​)},其中xi∈χ=Rnx_i \in\chi=\mathbf{R}^nxi​∈χ=Rn,yi∈Y={−1,+1},i=1,2,⋅...

2019-08-15 23:00:58 550

mnist_digits.7z

mnist_digits.7z 每个文件是一个数字的01矩阵,一个文件对应一个数字,文件名第一个字符为对应的数字。 无须积分

2020-02-25

海伦-datingTestSet.7z

海伦收集约会数据,存放在文本文件datingTestSet.txt中,每个样本数据占据一行,总共有1000行。 无须积分

2020-02-25

1511.00628.pdf

KD树算法虽然提高了KNN搜索的效率,但是在某些时候效率并不高,比如当处理不均匀分布的数据集时,不管是近似方形,还是矩形,甚至正方形,都不是最好的使用形状,因为他们都有角。球树,顾名思义,就是每个分割块都是超球体,而不是KD树里面的超矩形体。

2020-03-06

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人 TA的粉丝

提示
确定要删除当前文章?
取消 删除