排序:
默认
按更新时间
按访问量

数据竞赛系列

1.方法论 1.1 EDA 传统问题低维度特征可视化与强特征构造:https://www.kesci.com/apps/home/project/59f687e1c5f3f511952baca0 时间序列问题EDA的分析角度,时序必备背景知识(2.1和2.2是翻译的经典时序书籍Forecas...

2018-07-27 15:05:19

阅读数:422

评论数:0

海量数据处理:十道面试题与十个海量数据处理方法总结(大数据算法面试题)

第一部分、十道海量数据处理面试题1、海量日志数据,提取出某日访问百度次数最多的那个IP。      首先是这一天,并且是访问百度的日志中的IP取出来,逐个写入到一个大文件中。注意到IP是32位的,最多有个2^32个IP。同样可以采用映射的方法,比如模1000,把整个大文件映射为1000个小文件,再...

2018-06-09 17:11:57

阅读数:78

评论数:0

股票市场的风险度量——证券投资组合分析

中国慕课网-----金融风险管理(东华大学) Markwitz可行集:所有证券组合构成的,任意一个可行的集合。 Markwitz有效集:任意给定风险水平最大的预期回报或任意给定期回报有最小的风险   有效集中的最优股票组合: 一:在有效集上 二:位于投资者的wuca无差异曲线上 ...

2018-11-13 21:33:06

阅读数:4

评论数:0

hive优化心得

limit 限制调整 – 因为使用 limit 语句时候,是先执行整个查询语句,然后再返回部分结果的 set hive.limit.optimize.enable=true; set hive.limit.row.max.size=10000; set hive.limit.optimize.li...

2018-11-07 22:00:20

阅读数:10

评论数:0

Spark性能优化

https://blog.csdn.net/u012102306/article/details/51637366 https://tech.meituan.com/tag/Spark (非常重要!!!!!!!!基本看此三篇就可以解决) ps具体的问题,若泽数据的线下都有讲解。包括源码级别的内存调...

2018-10-29 13:56:37

阅读数:22

评论数:0

参数调优的一些学习记录

keras参数调优(如何使用scikit-learn网格搜索功能):https://blog.csdn.net/wang1127248268/article/details/77200639 keras 调参, 优化, 一些设置等:https://blog.csdn.net/xiaojiajia0...

2018-10-29 13:19:01

阅读数:25

评论数:0

window7安装pytorch(无GPU,无独显)

(1) pip安装 pip install http://download.pytorch.org/whl/cpu/torch-0.4.0-cp36-cp36m-win_amd64.whl pip install torchvision (2)这里还可以采用的方法是conda安装但是如果直接输入...

2018-10-29 08:34:53

阅读数:20

评论数:0

古典常用密码

【字母表顺序】-数字   加密的时候,经常要把A~Z这26个字母转换成数字,最常见的一种方法就是取字母表中的数字序号。A代表1,B代表2,C代表3… 字母 A B C D E F G H I J K L M N O P Q R S T U V W X Y Z   数字 1 2 3 4 5 6 7 ...

2018-10-27 21:41:01

阅读数:22

评论数:0

OD破解CM需要用到的断点API(经典断点)

拦截窗口: bp CreateWindow 创建窗口 bp CreateWindowEx(A) 创建窗口 bp ShowWindow 显示窗口 bp UpdateWindow 更新窗口 bp GetWindowText(A) 获取窗口文本 拦截消息框: bp MessageBox(A) 创建消息框...

2018-10-27 21:34:51

阅读数:18

评论数:0

机器学习在股票交易中难点分析

数据分布 小样本数据 无法量化的数据 数据复杂性 马尔可否决策过程的部分可观性 与推荐系统的相似之处 最后的想法 金融市场一直是最早使用机器学习的领域之一。自 20 世纪 80 年代以来,人们一直在使用机器学习(或者说是人工智能技术)来发现市场中的一些变化模式,特别是股票,期货和外汇市场。尽管机器...

2018-10-10 13:02:50

阅读数:22

评论数:0

数据网站汇总

人工智能,数据挖掘,数据分析,都离不开数据。 对于从业者来说,数据获取自然不是问题。可是,对于初学者来说,数据的获取成了大难题。下面就总结一些有用的数据网站: 一.通用数据 1.data.gov( https://www.data.gov/ )&...

2018-10-08 13:02:46

阅读数:23

评论数:0

所有的Python库

Python常用的库简单介绍一下 fuzzywuzzy ,字符串模糊匹配。 esmre ,正则表达式的加速器。 colorama 主要用来给文本添加各种颜色,并且非常简单易用。 Prettytable 主要用于在终端或浏览器端构建格式化的输出。 difflib ,[Python]标准库,...

2018-10-07 21:51:28

阅读数:34

评论数:0

HDFS基本概念与重新梳理(hdfs文件信息介绍)

HDFS(Hadoop Distributed File System )Hadoop分布式文件系统。是根据google发表的论文翻版的。论文为GFS(Google File System)Google 文件系统(中文,英文)。 HDFS有很多特点: 保存多个副本,且提供容错机制,副本丢失或宕机自...

2018-10-03 18:45:11

阅读数:23

评论数:1

机器学习-GridSearchCV自动调参,RF特征选择

https://blog.csdn.net/RuDing/article/details/78216086

2018-09-27 12:14:51

阅读数:57

评论数:0

知识视频翻录

1.现在市场上面的主流视频加密软件基本上是不可能被破解得。 2.加密视频软件会检测你的进程,会对怀疑是录屏进程的进程进行kill或者降低权限等等手段防止录屏软件的开启,并且伤及无辜。 3.对其技术进行分析后,发现,隐藏录屏软件进程后,就可以翻录。 ps:尊重原创知识视频。并且,知识视频是有价...

2018-09-23 14:30:28

阅读数:34

评论数:0

pyspark系列--pandas和pyspark对比

目录 pandas和pyspark对比 1.1. 工作方式 1.2. 延迟机制 1.3. 内存缓存 1.4. DataFrame可变性 1.5. 创建 1.6. index索引 1.7. 行结构 1.8. 列结构 1.9. 列名称 1.10. 列添加 1.11. 列修改 1.12. 显示 1.1...

2018-09-22 21:41:25

阅读数:40

评论数:0

spark 2.X 疑难问题汇总

https://blog.csdn.net/xwc35047/article/details/53933265 当前spark任务都是运行在yarn上,所以不用启动长进程worker,也没有master的HA问题,所以主要的问题在任务执行层面。 作业故障分类 故障主要分为版本,内存和权限三方...

2018-08-27 17:42:29

阅读数:69

评论数:0

特殊的搜索引擎以及Shodan

https://www.zhihu.com/question/20251786 以及:https://www.shodan.io/ 什么是Shodan? Shodan是用于连接互联网的设备的搜索引擎。网络搜索引擎,例如Google和Bing,非常适合查找网站。但是,如果您有兴趣测量哪些国家变...

2018-08-24 21:19:56

阅读数:139

评论数:0

CentOS7安装Docker

Docker 要求 CentOS 系统的内核版本高于 3.10 ,查看本页面的前提条件来验证你的CentOS 版本是否支持 Docker 。通过 uname -r 命令查看你当前的内核版本或者使用cat /etc/centos-release查看版本(支持centos7.x以上) uname ...

2018-08-21 21:10:41

阅读数:69

评论数:0

TensorFlow---(6)用RNN生成文本

https://blog.csdn.net/liubo7887/article/details/78827440 https://blog.csdn.net/heisejiuhuche/article/details/73010638 https://github.com/NELSONZHAO...

2018-08-14 22:11:26

阅读数:68

评论数:0

提示
确定要删除当前文章?
取消 删除
关闭
关闭