哈士奇说喵-CSDN博客

原创解决：Scala反射中Boolean等值类型 type mismatch 问题

描述问题使用 scala 反射过程中，传入为值类型，比如Boolean时，会出现类型不匹配的情况type mismatch;found : Boolean(true)required: ObjectxxxMethod.invoke(new xxx, true)解决方案不多说，先放解决方案package Reflectclass CopyToAnother { private def findBoolean(boolean: Boolean): Unit = { p

2021-06-02 21:21:21 3616 2

原创解决：本地Kafka和Druid的Zookeeper端口冲突问题

主要是完成本地的Kafka和Druid搭建过程中，出现的Cannot start up because port 2181 is already in use.问题问题原因：使用brew安装的的Druid也是自带zookeeper的，所以在单机部署的时候会和brew安装的Kafka的zookeeper端口2181冲突，如果两个一起启动，那就就需要修改Druid或者Kafka中的zookeeper端口为2182了方法1：从执行逻辑上修改/usr/local/Cellar/apache-druid-0.

2020-12-10 20:17:53 2153 1

原创 java中反射有什么作用？

前言反射blog有很多，不再赘述，但是反射的作用具体实现场景就会比较少，这里举个例子一个需求使用参数的方式传入需要执行的类名，然后执行相应类的同名方法普通的实现方法(静态加载)因为需要考虑执行的是不同类的同名方法，所以用接口来规范这个方法，然后增加两个类去实现这个接口即可，最后通过判断执行哪一个类接口 Standpackage com.test.dynamicLoading;public interface Stand { public void run();}

2020-11-26 15:37:54 1449

原创 SparkSql中时间阈操作【窗口函数】

本文主要总结了一些sql在时间阈上的操作，包括连续消费，最长签到，累计消费等问题，其实映射到其他业务场景也就变成了类似的计算；如游戏领域，连续登陆时间，连续签到时长，最大连续签到天数等常见的业务场景；方法都是共通的，这里就用sparksql来实现一些方法，hivesql的话有部分代码可能需要略微修改，比如having这种需要外面再套一层改成where等等就不再赘述构造数据进行测试为了比较好切割，我就用@进行拼凑了，第一个是日期，第二个是用户，第三个是否消费，第四个为消费金额20190531@156.

2020-06-17 15:01:14 1943 1

原创 SparkSql 2.2.x 中 Broadcast Join的陷阱(hint不生效)

问题描述使用hint指定广播表，却无法进行指定广播；前期准备hive> select * from test.tmp_demo_small;OKtmp_demo_small.pas_phone tmp_demo_small.age156 20157 22158 15hive> analyze table test.tmp_demo_small compute s...

2020-01-17 21:09:03 6396 2

原创 Spark RDD Lazy Evaluation的特性及作用

看一些博客都是轻描淡写的说一下这是spark的特性，延迟/惰性计算(lazy evaluation)就完事了，然后各个博客之间抄来抄去就是那么几句话，所以就想着把这些东西整理一下讲清楚，希望对有需要的朋友有所帮助。主要为了解决3个疑问rdd的弹性表现在哪？什么是spark lazy 特性？spark lazy evaluation 的好处都有什么？rdd的弹性表现在哪那就...

2019-08-26 15:46:27 3767 2

原创 Geohash中经度放偶数位问题

GeoHash算法这边就不赘述了，这篇目前认为最全面：https://www.jianshu.com/p/7332dcb978b2，感谢作者但是细心的同学会发现，当将经纬度进行逼近后形成的code需要交叉组合最终形成一个编码，方法是 ”经度放偶数位，纬度放奇数位“，我的天，我自己试了好几次，都是经度在奇数位，纬度在偶数位。看了好多博客，几乎都是千篇一律，直接复制粘贴。。。。。其实作者的意思...

2019-08-06 19:29:19 915

原创 spark-submit 提交python外部依赖包

需求：使用pyspark的过程中，发现集群的python并没有安装自己需要的包，比如elasticsearch包等，这样就只能靠自己把包打上，然后才能被分发到集群的各台节点机器上，然后被执行，这里举个例子，如何加载自己的外部包1.创建模块构建 spark_submit.py# -*- coding:utf-8 -*-def spark_submit_test(key): re...

2019-02-01 12:24:42 14210 1

原创 Sqoop学习笔记

前言在搭建公司的一些平台产品的时候，前端需要的渲染的数据往往是需要使用集群资源进行计算的，比如hive，spark等。然而web端对数据查询和显示有着较高的需求，所以查询端放在hive或者spark都变得不切实际，速度太慢。一般的处理方式是使用mysql当做结果存储，使用简单的select语句和where语句获取到直接的计算结果。而天级和小时级的数据需要从hdfs转移到mysql本身并不...

2018-09-16 14:22:13 939

原创解决：提交的hive任务如何找回其提交的语句

只记得表名或者该任务的一些关键字，忘记了自己创建表时候的语句，可以从hive的执行日志中获取原始数据。特别适合定位该测试表是怎么创建的，或者定位别人表创建的由来首先要确认提交的hive任务是在哪一台服务器提交的，一般默认hive的执行日志会放在提交任务的机器的/data/hive/tmp/{用户名}目录下首先需要切换到root用户，然后切到根目录，不清楚目录结构的请看：Linux...

2018-08-26 15:19:02 1678

原创 Docker 学习笔记

建议学习过程@S_gy_Zetrov–一篇很棒的入门教程Docker — 从入门到实践–粗略的看下，各个名词部分，进阶部分可以看情况看@孤天浪雨–Docker系列，建议从第一篇开始看值得考虑的问题@傅飞–Docker与虚拟机的区别@黄庆兵–如何精简压缩image精简为王：Docker镜像体积详解孤天浪雨–Docker实践(七)：Docker Hub(镜像...

2018-02-10 00:48:53 1592

原创使用python对高光谱数据进行处理和分类

目的加载遥感图像的.mat数据进行呈图显示将.mat的数据转化为python后续算法处理的csv文件存储训练模型，观察分类效果，在图中显示与原图对比方法Refer：spectral python官网使用超强的spectral包！目的1 - 代码加载遥感图像的.mat数据进行呈图显示part1 . 加载数据#refer:https://github.com/KGPML/Hype

2017-11-12 15:20:13 42799 57

原创 Stacking Learning在分类问题中的使用

建议先阅读以下文章回归问题构建stacking模型分类问题构建stacking模型codePay AttentionFurther建议先阅读以下文章知乎(必读)：Kaggle机器学习之模型融合（stacking）心得Blog：Stacking Models for Improved PredictionsBlog：KAGGLE ENSEMBLING GUIDE(注脚)Blog：如何

2017-10-05 15:51:13 7954 4

翻译 KAGGLE ENSEMBLING GUIDE(注脚)

About TrsKAGGLE ENSEMBLING GUIDECreating ensembles from submission filesVoting ensemblesError correcting codesA machine learning exampleA pinch of mathsNumber of votersCorrelation模型相关性Use for

2017-10-05 13:15:15 2097

原创总结：sklearn机器学习之特征工程

关于本文特征工程是什么32 数据探索性分析Exploratory Data AnalysisEDA数据预处理1 无量纲化数据规范化11 标准化 0均值标准化Z-score standardization12 区间缩放法线性函数归一化Min-Max scaling13 标准化与归一化的区别标准化规范化与归一化的区别2 对定量特征二值化3 对定性特征哑编码4 缺失值计算

2017-09-25 15:24:46 8563 2

原创数据结构与算法-排序篇-Python描述

前言补习基础的数据结构和算法的时候，很多都是用c或者java写的，顺便我用python重构一遍吧，也当做是补习了~排序算法冒泡排序冒泡排序原理即：从数组下标为0的位置开始，比较下标位置为0和1的数据，如果0号位置的大，则交换位置，如果1号位置大，则什么也不做，然后右移一个位置，比较1号和2号的数据，和刚才的一样，如果1号的大，则交换位置，以此类推直至最后一个位置结束，到此数组中最大

2017-09-04 00:42:10 10850 5

原创总结：数据清洗的一些总结

前言在整理项目的时候发现清洗过程是一个非常细节的过程，几乎贯穿始终，也是后续步骤特征提取等的前置条件，所以整理如下,因为展开较大，所以我已近上传mindnode脑图和原始照片尺寸，请在这里下载数据清洗脑图原版致谢机器学习基础与实践（一）—-数据清洗箱形图为什么能检测异常值，原理是什么？五个步骤教你数据清洗数据清洗基本概念标准化矩阵协方差矩阵相关系数矩阵数据挖掘数据预处理之：异常值检测数据

2017-08-25 14:31:54 5203

原创网易2018校招内推编程题（Python描述）

总结一下网易2018内推的测试题，我看python的比较少，所以献上自己的low代码，都AC过的，大毛病应该没有，看来基础还是得抓紧练习！[编程题] 彩色的砖块时间限制：1秒空间限制：32768K 小易有一些彩色的砖块。每种颜色由一个大写字母表示。各个颜色砖块看起来都完全一样。现在有一个给定的字符串s,s中每个字符代表小易的某个砖块的颜色。小易想把他所有的砖块排成一行。如果最多存在一对不同颜色

2017-08-14 20:12:42 5821

原创总结：Spark性能优化上的一些总结

Spark性能调优整理来自于： Spark性能优化指南——基础篇会增加：一些其他博客的内容自己的理解和pyspark代码的补充实践开发调优 Spark性能优化的第一步，就是要在开发Spark作业的过程中注意和应用一些性能优化的基本原则。开发调优，就是要让大家了解以下一些Spark基本开发原则，包括：RDD lineage设

2017-08-13 10:33:58 2529

原创总结：详细讲解MapReduce过程(整理补充)

关于整理此文百分之七十摘自我认为讲的很清楚的博客，我都贴了地址，很感谢这些博主的无私奉献！我再将一些自己的实例代码和知识点的补充加入进去，希望能更好的理解mapreduce的整个过程。从启动和资源调度来看MapReduce过程首先-先了解一下必知概念 From：MapReduce工作原理图文详解，JobTracker和TaskTracker概述客户端（Client）：编写mapreduc

2017-08-06 17:05:16 27686 5

原创总结：Hive，Hive on Spark和SparkSQL区别

Hive on Mapreduce Hive的原理大家可以参考这篇大数据时代的技术hive：hive介绍，实际的一些操作可以看这篇笔记：新手的Hive指南，至于还有兴趣看Hive优化方法可以看看我总结的这篇Hive性能优化上的一些总结Hive on Mapreduce执行流程执行流程详细解析Step 1：UI(user interface) 调用 executeQuery 接口，发送 H

2017-08-04 22:36:07 45441 1

原创总结：Hive性能优化上的一些总结

注意，本文百分之九十来源于此文:Hive性能优化，很感谢作者的细心整理，其中有些部分我做了补充和追加，要是有什么写的不对的地方，请留言赐教，谢谢前言今天电话面试突然被涉及到hive上有没有做过什么优化，当时刚睡醒，迷迷糊糊的没把以前实习的中遇到的一些问题阐述清楚，这里顺便转载一篇并来做一下总结介绍首先，我们来看看Hadoop的计算框架特性，在此特性下会衍生哪些问题？数据量大不是问题，数

2017-07-29 16:25:19 43791 10

原创笔记：新手的Spark指南

macOS Sierra 10.12.4Spark 1.6.2Python 2.7转载请注明出处：前言既然做了Hive的整理，那就把spark的也整理下吧，当做入门指南和自己的笔记吧~与君共勉Spark基础Spark是什么？ Spark是个通用的集群计算框架，通过将大量数据集计算任务分配到多台计算机上，提供高效内存计算。如果你熟悉Hadoop，那么你知道分布式计算框架要解决两个问题：如何

2017-07-25 17:21:43 2337

原创动态规划(DP)的整理-Python描述

今天整理了一下关于动态规划的内容，道理都知道，但是python来描述的方面参考较少，整理如下，希望对你有所帮助，实验代码均经过测试。请先好好阅读如下内容–什么是动态规划？摘录于《算法图解》以上的都建议自己手推一下，然后知道怎么回事，核心的部分是142页核心公式，待会代码会重现这个过程，推荐没有算法基础的小伙伴看这本书《算法图解》很有意思的书，讲的很清晰，入门足够更深入的请阅读pytho

2017-07-22 01:49:45 43727 11

原创 pyspark中combineByKey的两种理解方法

Spark 1.6 以前一直模模糊糊的，现在搞一下比较清楚combineByKey(createCombiner, mergeValue, mergeCombiners, numPartitions=None, partitionFunc=&lt;function portable_hash at 0x7f1ac7340578&gt;)它是一个泛型函数，主要完成聚合操作，将输入RDD[(K,V)]转化为

2017-07-21 13:40:39 3437

原创解决：MySQL Load Data数据丢失问题

MySQL 5.7 MacOS Sirrea 10.12.1前言很简单，我得文件里面20w数据，导入MySQL后只剩下16w条数据，无Deleted无Skipped排查方法既然数据丢失了，那把成表后的数据全部导出，然后和原始的数据进行对比验证select * from db.table INTO OUTFILE '/usr/local/mysql-5.7.18-macos10.1

2017-07-13 20:57:40 8428

原创数据向：我到底是谁的歌迷？

MacOS Sierra 10.12.1 Python 2.7 selenium 3.4.3 phantomjs 忘了前言发现自己有时候比挖掘别人来的更加有意义，自己到底喜欢谁的歌，自己真的知道么？习惯不会骗你搭建爬虫环境1.安装seleniumpip install selenium# anaconda环境的可用conda install selenium# 网速不好的可用到h

2017-07-10 02:01:53 4684 6

原创笔记：新手的Hive指南

前言算是对在滴滴实习的这段时间Hive的笔记吧，回学校也有段时间了，应该整理整理了，肯定不会巨细无遗，作为一种学习记录或者入门指南吧基础SQL基本语法Python基础语法(HiveStreaming会用到)Java基础语法(写UDF会用到)Hadoop基础(毕竟mapred过程)什么是Hive？ hive是基于Hadoop的一个数据仓库工具，可以将结构化的数据文件映射为一张数据

2017-07-09 21:37:43 8524 1

原创解决：MacOS下配置Hadoop及Hive单机遇到的问题(们)

MacOS Sierra 10.12.1 Hadoop 2.7.3 Hive 1.2.1前言本来安逸搞个local 的spark算了，但是过几天我还要搞个网易云音乐的大新闻，没有hive不得劲，遂装，期间遇到的问题，一一记录安装基础安装，先照这个来吧，反正肯定不会一次成功，科科，还可以自己百度，很多很多的@jeetpan–Mac 系统安装Hadoop 2.7.3问题这才是重

2017-06-29 16:58:09 1261

原创数据向：618价格到底~到底是不是最低？

云服务器：ESC Ubuntu 16.04 x64 PhantomJS：beta-Linux-ubuntu-xenial 2.1.1 Python 2.7.12前言好久没玩点有意思的了，这次借618这个购物节，自己也要搞台mbp，顺便搞一波大新闻。内容对某宝的其中四家店，再加上某东一家店，对比同一款机型，对价格进行监控，至于监控时间，大概是不间断的监控吧，还有邮件提醒哦~涉及

2017-06-24 15:46:28 3490

原创解决：在anaconda下无法使用conda安装第三方库问题

Anaconda2 Python 2.7.12 云服务器：ESC Ubuntu 16.04 x64问题无法使用conda进行安装第三方包 mrlevo@mrlevo-Lenovo:~$ conda install folium Fetching package metadata … CondaHTTPError: HTTP None None for url https://mi

2017-06-14 20:36:05 18891 3

原创解决：Ubuntu(MacOS)+phantomjs+python的部署问题

云服务器：ESC Ubuntu 16.04 x64 PhantomJS：beta-linux-ubuntu-xenial 2.1.1 Python 2.7.12目的租了台服务器当计算和运行平台，主要用于分布式网路爬虫，有需要用到phantomjs的地方，网上资料比较少，自己花了点时间，整理了一下安装phantomjs(Ubuntu版本)phantomjs下载地址，这里根据自己系统版本进

2017-06-14 12:09:38 5032

原创解决：win远程连接ubuntu服务器安装jupyter，启动pyspark

ubuntu 16.1.4 win10 x64 X-shell5 目的 win主机远程访问ubuntu服务器，并启动服务器端jupyter在本地进行python和spark调试步骤我不做重复性工作，翻阅了很多很多博客，最后的解决方案在这里，多谢@Xmo_jiao基于pyspark和scalaspark的jupyter notebook 安装如果按照步骤走失败的请看这里，这里需要注意

2017-06-06 22:28:17 2506

原创 Spark日志清洗一般流程

spark 1.6.1 python 2.7.11前言整理了一下使用spark来进行日志清洗及数据处理的套路，这里以pyspark为例pyspark的启动任务套路对于使用spark作为查询清洗工具而言，启动spark的套路主要使用sh文件进行终端带参数启动，启动后开始调用sh传递处理参数，并且构造好sparkconf后传递提交(spark-submit) python文件,当然最主要

2017-05-14 20:16:33 5721

原创解决:用脚本配置crontab

目的不想每次使用crontab -e进行配置，而是使用脚本的方法进行配置，这次使用的是直接执行python，然后进行写入crontab中直接进行配置方法1-终端执行$ crontab -l > now.cron # 下载配置文件$ echo '0 0 * * * echo test' >> now.cron # 写入now.cron中$ crontab now.cron # 提交到

2017-05-02 17:07:49 2080

原创解决:crontab执行python no model name xxx问题

启动定时：crontab -e50 16 * * * source /etc/profile && cd /home/AA/BB && nohup python remindmail.py > remindmail.log 2>&1 & 但是并没有定时产生，查看logTraceback (most recent call last): File "remindmail.py", line

2017-04-14 18:44:26 3370

原创 Python编码规范(PEP8)及奇技淫巧(不断更新)

Python 2.7前言从很多地方搬运+总结，以后根据这个标准再将python的一些奇技淫巧结合起来，写出更pythonic的代码~PEP8 编码规范英文原版请点击这里以下是@bobo的整理，原文请见PEP8 Python 编码规范整理代码编排缩进。4个空格的缩进（编辑器都可以完成此功能），不使用Tap，更不能混合使用Tap和空格。每行最大长度79，换行可以使用反斜杠，最好使用圆括号

2017-04-04 19:18:00 18704

原创解决：使用Photoswipe进行图片展示

python 2.7 Django 1.6.1 photoswipe前言对于前端的照片存储，已经在前一篇博文中进行展示，使用的是dropzone.js的包，图片存储的作用就是为了数据的再调用，所以在此片进行上次图片的前端展示，因为我是个前端萌新，所以方法比较稚嫩，希望观众老爷不要嘲笑，多多指教咯。如何上传图片并保存请看：dropzone拖拽图片上传并保存到本地样式的选择和调试请参考这里，

2017-04-04 16:04:10 9878 1

原创解决：Dropzone.js的图片拖拽上传保存本地文件夹

拖拽上传JS包：Dropzone.js 图片展示JS包：PhotoSwipe.js Mac OS：Sierra 10.12.2 python 2.7 Django 1.6前言在学习前端的时候需要用到图片拖拽上传展示，这里记录一下踩过的坑以及解决办法目的图片拖拽或点击上传，在另一个页面根据数据库id索引调出图片图片拖拽上传部分先说一

2017-04-04 15:43:12 4681

原创解决:spark启动错误Exception in thread "main" java.lang.UnsupportedClassVersionError: org/apach..

MacOS：Sierra 10.12.2 Spark版本：2.1.0 今天想在本地安装spark，结果按照步骤来竟然报错，问题原因spark 2.1.0需要java 7+的支持，但是Mac默认的java 是1.6的，导致运行失败，解决方案也很简单，到官网下载最新的Java JDK和JRE安装好即可，当时我只下载了jre，结果还是不行，傻逼了，下了jdk后安装好就可以了，具体安装过程如下4步ma

2017-03-19 16:57:17 20207

参考文献格式生成器

此为定制版参考文献生成器，这个版本是以哈尔滨工程大学的毕业论文为蓝本的，可自己定制

2016-07-07

mingw64安装

mingw64

2016-11-12

Python+MySQL用户加密存储验证系统

请先安装MySQL,并进行测试连接，exe文件可用于win8/10 x64 注意exe除非环境和我一样，否则不能运行的，我的设置是host = '127.0.0.1',user='root',passwd='A089363b' 注意还是自己从源码修改然后用pyinstaller进行修改吧用户加密存储系统--用于托管第三方数据库，内容进行加密后存储，没有秘钥无法破解 1.用户存储，登录，查看，删除操作，存储在数据库中 2.用户密码加密存储，密码加密方式可选，目前只可选MD5和SHA1，用户存储内容加密存储，加密方式自定义 3.自定义（我自己定义了一个加密解密函数）加密序列，拿到内容没有序列无法解密 4.可更改用户密码，更改自定义KEY，更改加密存储内容 have fun！如果有BUG请与我联系，也可以在我主页留言博客http://blog.csdn.net/MrLevo520 谢谢

2016-08-04

基于python豆瓣自定义电影抓取GUI版本

请先安装火狐浏览器，并设置为默认浏览器，支持win8/10 x64 1.可以选择电影种类，排序方式，TOP个数，等自定义 2.加载热评，长评 3.接口丰富，之后可以自行改造，附上源程序，有python环境的自己打开就行 4.请让exe文件和phantomjs.exe在同一文件夹下运行，允许其运行 enjoy yourself！ 7.22更新 GUI版本

2016-07-22

基于python豆瓣自定义电影抓取

1.可以选择电影种类，排序方式，TOP个数，等自定义 2.加载热评，长评 3.接口丰富，之后可以自行改造，附上源程序，有python环境的自己打开就行 4.请让exe文件和phantomjs.exe在同一文件夹下运行，允许其运行

2016-07-20

基于python豆瓣自定义电影抓取GUI版本1.0

7.23更新 1.增加电视剧选项，每周TOP选项 2.修复查看TOP40之后程序出错问题 3.缩减代码量

2016-07-23

参考文献生成器1.0

1.参考文献格式以哈尔滨工程大学毕业论文为基础，因为本校特码不是国标那种类型的！艹 2.具体事例参考图片 3.支持作者大小写混写（反正自动纠正为首字母大写），中文不做改变 4.支持题目大小写混输入，可选择题目改变类型 5.目前支持四种格式，期刊，论文，书籍，会议，以后可根据情况再加入 6.支持起始页尾添加'P'或者'页',其实都是支持字符串输入的 6.若不选择格式类型，题目类型，默认为期刊，题目不做改变 7.此为beta版本，若有建议请联系MrLevo@outlook.com或15645183037@163.com 8.如果想定制自己学校的参考文献生成器，请将word格式的四种论文格式模板发送至7的邮箱。 9.最后，此软件完全免费，绿色，大小为7.12MB,请勿用于商业用途（虽然很low但是这是定制版本，和cnki这类不一样，btw，cnki那个160+mb还要钱！） have fun！ ----2016.7.9更新 1.增加对输入文献的多选复制 2.增加对长文献的拖拽查看

2016-07-21

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

参考文献格式生成器

mingw64安装

Python+MySQL用户加密存储验证系统

基于python豆瓣自定义电影抓取GUI版本

基于python豆瓣自定义电影抓取

基于python豆瓣自定义电影抓取GUI版本1.0

参考文献生成器1.0

数据清洗mindnode原图

dermatology.data

adb 安卓+win10调试工具

knn算法实例Python版本

豆瓣电影名称类别评分时长评论年份爬取主函数

基于python豆瓣自定义电影抓取2.0

完全可用的车牌定位识别

618价格分析echarts

WinSCP_5.9.0.6786_Setup.exe

Matlab完整版车牌定位识别

KmeansEating

机器学习实战-数据及源代码

空空如也