2017年07月_哈士奇说喵

11月 10月 09月 08月 07月 06月 05月 04月 03月 01月

原创总结：Hive性能优化上的一些总结

注意，本文百分之九十来源于此文:Hive性能优化，很感谢作者的细心整理，其中有些部分我做了补充和追加，要是有什么写的不对的地方，请留言赐教，谢谢前言今天电话面试突然被涉及到hive上有没有做过什么优化，当时刚睡醒，迷迷糊糊的没把以前实习的中遇到的一些问题阐述清楚，这里顺便转载一篇并来做一下总结介绍首先，我们来看看Hadoop的计算框架特性，在此特性下会衍生哪些问题？数据量大不是问题，数

2017-07-29 16:25:19 43122 10

原创笔记：新手的Spark指南

macOS Sierra 10.12.4Spark 1.6.2Python 2.7转载请注明出处：前言既然做了Hive的整理，那就把spark的也整理下吧，当做入门指南和自己的笔记吧~与君共勉Spark基础Spark是什么？ Spark是个通用的集群计算框架，通过将大量数据集计算任务分配到多台计算机上，提供高效内存计算。如果你熟悉Hadoop，那么你知道分布式计算框架要解决两个问题：如何

2017-07-25 17:21:43 2205 1

原创动态规划(DP)的整理-Python描述

今天整理了一下关于动态规划的内容，道理都知道，但是python来描述的方面参考较少，整理如下，希望对你有所帮助，实验代码均经过测试。请先好好阅读如下内容–什么是动态规划？摘录于《算法图解》以上的都建议自己手推一下，然后知道怎么回事，核心的部分是142页核心公式，待会代码会重现这个过程，推荐没有算法基础的小伙伴看这本书《算法图解》很有意思的书，讲的很清晰，入门足够更深入的请阅读pytho

2017-07-22 01:49:45 42356 10

原创 pyspark中combineByKey的两种理解方法

Spark 1.6 以前一直模模糊糊的，现在搞一下比较清楚combineByKey(createCombiner, mergeValue, mergeCombiners, numPartitions=None, partitionFunc=&lt;function portable_hash at 0x7f1ac7340578&gt;)它是一个泛型函数，主要完成聚合操作，将输入RDD[(K,V)]转化为

2017-07-21 13:40:39 3318

原创解决：MySQL Load Data数据丢失问题

MySQL 5.7 MacOS Sirrea 10.12.1前言很简单，我得文件里面20w数据，导入MySQL后只剩下16w条数据，无Deleted无Skipped排查方法既然数据丢失了，那把成表后的数据全部导出，然后和原始的数据进行对比验证select * from db.table INTO OUTFILE '/usr/local/mysql-5.7.18-macos10.1

2017-07-13 20:57:40 8128

原创数据向：我到底是谁的歌迷？

MacOS Sierra 10.12.1 Python 2.7 selenium 3.4.3 phantomjs 忘了前言发现自己有时候比挖掘别人来的更加有意义，自己到底喜欢谁的歌，自己真的知道么？习惯不会骗你搭建爬虫环境1.安装seleniumpip install selenium# anaconda环境的可用conda install selenium# 网速不好的可用到h

2017-07-10 02:01:53 4530 9

原创笔记：新手的Hive指南

前言算是对在滴滴实习的这段时间Hive的笔记吧，回学校也有段时间了，应该整理整理了，肯定不会巨细无遗，作为一种学习记录或者入门指南吧基础SQL基本语法Python基础语法(HiveStreaming会用到)Java基础语法(写UDF会用到)Hadoop基础(毕竟mapred过程)什么是Hive？ hive是基于Hadoop的一个数据仓库工具，可以将结构化的数据文件映射为一张数据

2017-07-09 21:37:43 8315 1

adb 安卓+win10调试工具

https://github.com/wangshub/wechat_jump_game项目中需要用到的adb工具

2018-01-01

机器学习实战-数据及源代码

机器学习实战 Peter Harrington著参考内容以及书籍中的代码

2017-10-09

数据清洗mindnode原图

数据清洗的mindnode原图

2017-08-25

618价格分析echarts

6.10-6.19的价格数据

2017-06-24

WinSCP_5.9.0.6786_Setup.exe

能用，win10亲测

2017-06-06

dermatology.data

2016-11-12

mingw64安装

mingw64

2016-11-12

豆瓣电影名称类别评分时长评论年份爬取主函数

2016-10-10

基于python豆瓣自定义电影抓取2.0

相较于版本1.0更新说明 ---- 1.新增CMD版本的打包处理 2.新增存入word操作。 3.新增预告片链接，新增推荐相关电影。 4.自由度加强，可自定义对评论，简介，写入存储，推荐，计时(针对cmd版本)等采集开关，采集何种数据真正自由选择。 5.简化代码，优化代码结构，更加清晰明了富有逻辑(自认为) 更多请详见我的博客，谢谢

2016-10-01

KmeansEating

对哈尔滨美食TOP榜的数据聚类分析展示可视化

2016-09-19

knn算法实例Python版本

本exe文件适用于win8/10 64位系统文章请参考本人博客 CSDN MrLevo520或者简书MrLevo520，内有详细分析 1.测试数据集为datacombinlabel.txt 2.测试时注意选择路径，可参考实验截图最后祝大家学习愉快，转载分享请注明出处，谢谢 by 哈士奇说喵 2016.9.8

2016-09-08

Python+MySQL用户加密存储验证系统

请先安装MySQL,并进行测试连接，exe文件可用于win8/10 x64 注意exe除非环境和我一样，否则不能运行的，我的设置是host = '127.0.0.1',user='root',passwd='A089363b' 注意还是自己从源码修改然后用pyinstaller进行修改吧用户加密存储系统--用于托管第三方数据库，内容进行加密后存储，没有秘钥无法破解 1.用户存储，登录，查看，删除操作，存储在数据库中 2.用户密码加密存储，密码加密方式可选，目前只可选MD5和SHA1，用户存储内容加密存储，加密方式自定义 3.自定义（我自己定义了一个加密解密函数）加密序列，拿到内容没有序列无法解密 4.可更改用户密码，更改自定义KEY，更改加密存储内容 have fun！如果有BUG请与我联系，也可以在我主页留言博客http://blog.csdn.net/MrLevo520 谢谢

2016-08-04

基于python豆瓣自定义电影抓取GUI版本1.0

7.23更新 1.增加电视剧选项，每周TOP选项 2.修复查看TOP40之后程序出错问题 3.缩减代码量

2016-07-23

基于python豆瓣自定义电影抓取GUI版本

请先安装火狐浏览器，并设置为默认浏览器，支持win8/10 x64 1.可以选择电影种类，排序方式，TOP个数，等自定义 2.加载热评，长评 3.接口丰富，之后可以自行改造，附上源程序，有python环境的自己打开就行 4.请让exe文件和phantomjs.exe在同一文件夹下运行，允许其运行 enjoy yourself！ 7.22更新 GUI版本

2016-07-22

参考文献生成器1.0

1.参考文献格式以哈尔滨工程大学毕业论文为基础，因为本校特码不是国标那种类型的！艹 2.具体事例参考图片 3.支持作者大小写混写（反正自动纠正为首字母大写），中文不做改变 4.支持题目大小写混输入，可选择题目改变类型 5.目前支持四种格式，期刊，论文，书籍，会议，以后可根据情况再加入 6.支持起始页尾添加'P'或者'页',其实都是支持字符串输入的 6.若不选择格式类型，题目类型，默认为期刊，题目不做改变 7.此为beta版本，若有建议请联系MrLevo@outlook.com或15645183037@163.com 8.如果想定制自己学校的参考文献生成器，请将word格式的四种论文格式模板发送至7的邮箱。 9.最后，此软件完全免费，绿色，大小为7.12MB,请勿用于商业用途（虽然很low但是这是定制版本，和cnki这类不一样，btw，cnki那个160+mb还要钱！） have fun！ ----2016.7.9更新 1.增加对输入文献的多选复制 2.增加对长文献的拖拽查看

2016-07-21

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

MrLevo520的博客