- 博客(113)
- 收藏
- 关注
原创 Jupyter notebook 小设置
1、设置cell宽度from IPython.core.display import display, HTMLdisplay(HTML(""))2、忽略warningimport warningswarnings.filterwarnings(“ignore”)3、多行输出from IPython.core.interactiveshell import InteractiveShellInteractiveShell.ast_node_interactivity = “all”...
2021-04-22 14:39:21 441
原创 开源BI框架对比选择 Superset-Redash-Metabase
仅是从使用角度选择,不包括二次开发。如果是二次开发,那就看技术栈和框架选择,结合Redash并入databricks,毫无疑问选Redash。
2020-09-11 11:06:14 8218
原创 Kettle(四)遍历操作
文章目录1、整体流程2、细节介绍2.1 tables In mysql2.2 逐个拉表2.3 set tables name2.4 insertKettle做遍历是非常有必要的,拖库,日更,谁也不想做那么多重复工作。遍历有不同的做法,我这里介绍的是,将表名存在结果中,然后利用JOB设置的执行每一行输入例子是从一个数据库中按顺序抽取表到另一个数据库。1、整体流程整体JOB需要两个步,1、获取需要操作的表名(tables In mysql);2、逐个表按设计转换拖到另一个数据库(逐个拉表)。其中,第
2020-09-01 18:38:32 1489
原创 Kettle(三)拉链表
文章目录1、示例2、Kettle实现分析3、Kettle实现步骤3.1 更新3.2 插入3.2 流程4、Kettle实现细节4.1 更新4.2 插入5、速度测试5.1 csv数据导入5.2 首次导入数据5.3 更新5.4 插入6、总结与经验拉链表,顾名思义,就是记录一个事物从开始,一直到当前状态的所有变化的信息。1、示例例如下面的流水表,code是会更新的字段。那么对应的拉链表设计如下:其中uid是自增主键。需要更详细了解可以参考 漫谈数据仓库之拉链表(原理、设计以及在Hive中的实现)2、
2020-09-01 17:34:21 1438
原创 Kettle(二)差点放弃
Kettle实战100篇(天)ETL工具KETTLE表输入表输出提速5-10倍Kettle提高表输出写入速度(每秒万条记录)
2020-08-28 15:23:25 700 1
原创 使用Docker进行模型部署
文章目录1、思路2、实现步骤2.1 数据、模型准备2.2 镜像制作2.3 使用1、思路因为多数公司正式集群都不能使用公网环境,对于模型部署比较麻烦。所以想这在公网环境下完成模型调试,然后根据相关环境和参数直接制作一个docker镜像,部署到内网集群。2、实现步骤2.1 数据、模型准备假设已经有一个模型文件,主函数predict,只要将 train_df, test_df传入即可得到结果。首先,传输时候要转换成json,另外要将数据类型传输过来。# 数据类型转换为dicttest_df_dty
2020-08-27 18:35:06 1318
原创 Kettle(一) 安装
文章目录1、Kettle介绍2、JDK安装3、Kettel安装1、Kettle介绍Kettle是一款国外开源的ETL工具,纯java编写,可以在Windows、Linux、Unix上运行,数据抽取高效稳定。Kettle 中文名称叫水壶,该项目的主程序员MATT 希望把各种数据放到一个壶里,然后以一种指定的格式流出。Kettle家族目前包括4个产品:Spoon、Pan、CHEF、Kitchen。SPOON 允许你通过图形界面来设计ETL转换过程(Transformation)。PAN 允许你批量运行
2020-08-21 09:54:43 263
原创 反爬2:滑块验证码(python,无原图)
滑块验证码也是常见反爬手段,而且网上介绍文章也不少,但是多数都是能够获取到原图和有缺口的图,然后做点对点的对比获得缺口位置,这里主要是怎么处理没有原图。2、解决思路1、虽然他们没有原图,但是它的缺口位置有白边,所以每一个点对他右侧和下侧各26个像素求和,然后这些像素往右下移动一个像素再求和,达
2020-08-19 18:07:36 1094
原创 反爬1:字体文件混淆反爬破解(python)
字体文件混淆是常见反爬手段,我这里指的是使用1份或多份网站自定义字体(通常是woff),导致爬下来的字符编码不能解析,即所见非所得。解决思路1、首先,不会有一个网站会真的自己设计一种字体(如果有可以手打对照表),一般都是将现有的字体进行位置调换形成一份新的字体。所以,第一步就是要找到这份字体的源字体。2、找到源字体之后,将其解析出来字的点坐标。将点坐标和对应的文字
2020-08-19 18:05:30 850
翻译 0-2、《数据结构与算法-python》第二章
前几章非算法部分,仅摘录重点内容1、数据类型的操作2、简单类的抽象2.1、有理数2.2、静态方法、类方法1、@staticmethed该方法不应该属于类的方法,但是又有需要,所以定义一个静态方法。例如下面对有理数的检查。2、@classmethed个人理解是该方法是为了不同子类调用会出现不同的结果,所以绑定一个cls参数,搭配一个类的属性使用。例如下面的计数器。3、例子:学校人事系统类3.1、抽象设计| | |3.2、实现基础类增加一个计数器学生类
2020-05-19 08:57:00 261
原创 0-1、《数据结构与算法-python》第一章
前几章非算法部分,仅摘录重点内容。文章目录1、算法的基本概念2、算法的基本设计模式3、大O记法4、复杂度分析4.1、基本循环4.2、递归的复杂度1、算法的基本概念2、算法的基本设计模式3、大O记法常用的渐进复杂度:O(1),O(logn),O(n),O(nlongn),O(n2),O(n3),O(2n)O(1),O(log n),O(n),O(n long n),O(n^2),O(n^3),O(2^n)O(1),O(logn),O(n),O(nlongn),O(n2),O(n3),O(2
2020-05-12 13:21:40 196
原创 01、(golang)FIFO循环队列
1、因为是新学的语言,其中结构体MyCircularQueue内数据初始化感觉处理的不好看,使用循环赋值的方式,后面有机会再更新。2、有个小坑,当队列为空时,队列front,rear返回的都是是-1.type MyCircularQueue struct { head int tail int arr []int}// Initialize your data stru...
2020-05-04 07:38:12 739
原创 Spark集群IDE配置
jupyter notebook修改配置文件(a) 在个人账户下建立配置文件:jupyter notebook --generate-config(b) Python环境下设置密码:>>> from notebook.auth import passwd>>> passwd()Enter password:Verify password:'sha...
2020-04-17 10:45:43 198
原创 face_recognition安装使用
1、安装首先更换了清华源,然后安装,安装总是出错CMake must be installed to build the following extensions: dlib解决方法$ sudo pip install cmake$ sudo pip install face_recognition2、使用...
2020-02-25 21:54:25 354
原创 更改源:pip、conda、docker
本文记录一些常用包更换源的方式。1、PIP1.1 源地址(1)阿里云 http://mirrors.aliyun.com/pypi/simple/(2)豆瓣http://pypi.douban.com/simple/(3)清华大学 https://pypi.tuna.tsinghua.edu.cn/simple/(4)中国科学技术大学 http://pypi.mirrors.ustc....
2020-02-25 20:00:14 2239
原创 目标检测汇总
文章目录1、神经网络基础2、卷积神经网络2.1、术语及历史2.2、CNN2.3、CNN改进3、目标检测1、神经网络基础以下为CS229视频课程部分笔记,可参考文章内的讲义。数据挖掘day26、27-CS229-WEEK4 Neural Networks:Representtation数据挖掘day28、29-CS229-WEEK4 Neural Networks:Learning2、卷积...
2020-02-06 20:52:25 180
原创 deepin下Docker配置及使用
1、安装1.如果以前安装过老版本,请先卸载以前版本sudo apt-get remove docker.io docker-engine2.安装docker-ce与密钥管理与下载相关依赖工具sudo apt-get install apt-transport-https ca-certificates curl python-software-properties software-pro...
2020-02-06 09:38:50 2378
原创 deepin15.11 安装cuda10.1+cudnn7.6+pytorch-gpu(whl)
折腾了很长时间,经过3次重装,终于用上GPU版了。
2020-01-29 19:46:58 1681 2
原创 deepin 安装 pytroch-GPU(填坑失败记录)
1、首选安装闭源显卡驱动我的渣渣显卡GTX 1050,算力6.1,N卡算力查询deepin下可以直接源内安装:sudo apt-get install nvidia-driver参考文章deepin显卡
2020-01-29 14:07:55 625
原创 员工离职率预测,练手赛
文章目录1、数据探索1.1 各特征总量及百分比1.2 heatmap2、特征选择&处理2.1 特征分类2.2 连续特征选择2.3 分类特征选择2.4 异常值处理2.5 连续特征处理2.5.1 分箱测试2.6 拼接特征,然后再筛选3、建立模型3.1、LR3.1.1 尝试修改LR模型阀值3.1.2 尝试下采样,堆叠LR3.2 XGBoost3.3 GBC3.4 SGD该比赛为DC练习赛,要求...
2020-01-20 09:38:21 2217 1
原创 数据挖掘day10-CS229-Convex Optimization Overview
斯坦福课程CS229的补充材料Convex Optimization Overview。我感觉从今天起,学习笔记会变成我的单词本(⊙﹏⊙)b,不知如此,很多相关概念、符号,大学期间也是没有学过的,这篇笔记都会记录。首先当然是找到中文材料,补充理解 Github翻译CS229项目,知乎上的读书笔记...
2020-01-02 22:51:55 250
原创 数据挖掘day9-CS229-Linear Algebra Review and Reference
因为计划先看的凸优化,但是发现其中很多符号不认识(不同的机构使用的不一定一样)。过两天才看到这个线性代数综述,我觉得应该是我的顺序搞反了,所以,将这一篇的日期顺序排的靠前点。其实我更推荐看原文章或翻译:中文翻译,不过这里我会把公式都打出来,主要是联系一下Latax。1、基本概念和符号方程组:4x1−5x2=−134x_1-5x_2=-134x1−5x2=−13−2x1+3x2=9-2x...
2020-01-02 22:51:14 441
原创 数据挖掘day34、36-CS229-WEEK7 Support Vector Machines
1、优化目标与逻辑回归的的代价函数类似,SVM的代价函数如下:2、大间距分类器SVM是大间距分类器,因为他总是选间距最大的边界线。
2020-01-02 22:50:16 168
原创 数据挖掘day12-CS229-Review of Probability Theory
没找到中文翻译,只能自己做翻译了概率论是对不确定性的研究。通过这个课程,我们将依靠概率论的概念来推导机器学习算法。 本文试图概括适合于CS 229水平的概率论基础知识。概率的数学理论非常复杂,其深层次内容为测量理论的分支。 在这些文档中,我们提供了概率的基本处理,但没有解决这些细节问题。1、概率基本元素为了定义集合上的概率,我们需要一些基本元素:• 样本空间Ω\OmegaΩ:随机实验的所有...
2020-01-02 22:49:39 268
原创 win10 jupyterlab 配置
这里写自定义目录标题Python为默认语言来搭建JupyterLab,首先确认你安装好了Python基本环境:# 一行命令搞定pip install jupyterlab# 安装ipythonpip install ipython安装插件之前需要配置Node,直接安装就行。安装目录插件例子:# 以安装一个生成目录的插件为例jupyter labextension install...
2019-12-07 17:13:20 1283
原创 《python》编程导论 第1/2/3/4章
前几章比较简单,本文纯粹是为了对基本概念做个记录,顺便码一下。第三章3.3 近似解和二分查找3.3.1 平方根迭代近似解x=25epsilon = 0.01 step = epsilon**2numGuesses = 0ans = 0while abs(ans**2-x) >= epsilon and ans <= x: ans += step num...
2019-11-03 19:55:06 194
原创 virtual box 爬虫虚拟机配置
文章目录1.安装虚拟机2.安装虚拟机系统1.安装虚拟机virtual box 安装没什么特殊的。2.安装虚拟机系统1.安装win7或win10 系统,deepin系统设置迅联VPN不成功。2.并且要安装官网纯净版的,尝试安装YLMF版的,多次都是死机。3.安装扩展包,VBoxGuestAdditions.iso设备→...
2019-10-31 22:49:58 214
原创 百家号爬虫(获取各领域创作者appid)
百家号爬虫(获取各领域创作者appid)由于百度的限制,每个领域最多能获取760个id#!/usr/bin/env python3# -*- coding: utf-8 -*-from urllib.parse import quotefrom urllib import requestfrom bs4 import BeautifulSoupfrom urllib import...
2019-10-10 11:22:50 2062
原创 Selenium+driver 配置
1、Selenium安装 pip install selenium pip show selenium2、Chromedriver配置Chromedriver移动至 user/bin 并更改权限 chom 777 chromebdriver3、测试from selenium import webdriverbrowser = webdriver.Chrome()browser...
2019-10-03 10:40:45 271
原创 数据挖掘day34-CS229-WEEK6 Advice for Applying Machine Learning
1、如何改进模型?当已经完成一个机器学习模型,而效果并不符合要求时,该如何进行改进?改进的方向有如下:1、获取更多训练集;2、挑选特征,用更小的特征集进行学习;3、获取训练集数据的更多特征信息,构建更大的特征集;4、使用更复杂的特征(x12,x22,x1x2x_1^2,x_2^2,x_1x_2x12,x22,x1x2)等;5、减小λ\lambdaλ;6、加大λ\lambda...
2019-08-31 22:38:45 118
原创 数据挖掘day30~33-《数据挖掘导论》第五章,5.1~5.3,基于规则、最近邻、贝叶斯分类器
本节的计划是4天时间。内容中基于规则的分类器与决策树较为类似。而最近邻和贝叶斯片数学计算,由于时间问题,算法实现,待后来补上。
2019-08-30 22:36:09 658
原创 数据挖掘day28、29-CS229-WEEK4 Neural Networks:Learning
本节主要是介绍神经网络的反向传播算法。深度学习中文讲义1、代价函数(Cost function)令k为输出层的个数,当k>=3时,使用多元表达。所以,神经网络的代价函数一般形式,需要对k个输出求和,如下注意到正则化项,由j=1开始,因为类似x0x_0x0之类的项,通常都不做正则化。2、选择神经网络框架1、输入和输出都是确定的。2、一般采用一个隐藏层,如果有多个隐藏层,其维...
2019-08-29 21:32:13 138
原创 数据挖掘day26、27-CS229-WEEK4 Neural Networks:Representtation
文章目录1、神经元(neuron)2、神经网络(Neural Network)表示3、向量化4、例子4.1 单个神经元例子本节仅是对神经网络的背景知识介绍和神经网络的表述方式进说明。因为生物学知识不难,理解也还行。1、神经元(neuron)下图是以左侧表示神经网络的一个神经元(这个神经元对应的就是简单的逻辑回归)。2、神经网络(Neural Network)表示下图表示一个神经网络从...
2019-08-29 16:04:42 171
原创 数据挖掘day22、23-《数据挖掘导论》-第四章,4.1-4.3.7 决策树
决策树的实现相对我这种新手比较难,参考了一篇文章数据挖掘领域十大经典算法之—C4.5算法(超详细附代码)树类1、参考但是,他里面写的内容比较散乱,明显没有书本P101的框架明白,因此仅参考了他的‘树’类。class Tree(object): def __init__(self,node_type,Class = None, feature = None): sel...
2019-08-28 00:39:50 428
原创 数据挖掘day20、21-《数据挖掘导论》-第三章,探索数据
文章目录3.3.3-1、少量属性的可视化1.1 茎叶图1.2 直方图(histogram)1.3 二维直方图(two-dimensional histogram)1.4 盒状图(box plot)1.5 饼图(pie plot)1.6 经验累积分布函数(ECDF)1.6 百分位数图(percentile plot)1.7 散布图矩阵(scatter plot matrix)1.8 散布图1.9 三...
2019-08-07 10:04:52 517
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人