2018年01月_dataastron

09月 05月 04月 03月 02月 01月

原创 GB2312、GBK、GB18030 这几种字符集的主要区别

作者：知乎用户链接：https://www.zhihu.com/question/19677619/answer/12616362来源：知乎著作权归作者所有。商业转载请联系作者获得授权，非商业转载请注明出处。1 GB2312-80GB 2312 或 GB 2312-80 是中国国家标准简体中文字符集，全称《信息交换用汉字编码字符集·基本集》，又称 GB 0，由中国国家标

2018-01-24 11:17:56 20022 1

原创 jupyter中用notedown插件来读取md文档

使用notedown插件来读写github源文件pip install https://github.com/mli/notedown/tarball/masterjupyter notebook --NotebookApp.contents_manager_class='notedown.NotedownContentsManager'【可选项】默认开启notedown插件首先

2018-01-21 22:55:46 2663 1

原创推荐一个画板工具

几天看到沐神在用 https://awwapp.com/这个画板，看了下不错。不过要收费。mark一下。

2018-01-21 22:45:38 2439

转载远程访问jupyter notebook

远程访问jupyter notebook原创 2016年05月16日 19:03:06标签：python /jupyter /数据分析 /ipython14646ipython notebook是一个基于浏览器的python数据分析工具，使用起来非常方便，具有极强的交互方式和富文本的展示效果。jupyter是它的升级版，它的安装也非常

2018-01-21 22:36:05 196

转载 ubuntu图形界面root用户登录

http://blog.csdn.net/qq_20965753/article/details/61420431 LUbuntu是一款新的轻量级Ubuntu发行版，结合LXDE使得LUbuntu安装、运行速度极快，硬件资源要求很低，支持X86和ARM架构处理器。可以在http://lubuntu.net/根据自己电脑的系统选择下载32bits或者64bit

2018-01-21 20:47:03 397

原创阿里云 apt软件云。ubuntu16 17适用

今天遇到了apt各种404，所以研究了下apt软件源怎么替换成高速可靠，延迟低的。还是阿里云靠谱。其他的163的也不错。自行查找。 1 备份系统默认的源,用不了可以回滚cp /etc/apt/sources.list /etc/apt/sources.list.bak2 修改/etc/apt/sources.list>/etc/apt/sources.listcat >>/etc/apt/

2018-01-21 18:34:01 411

转载 JAVA多线程之线程间的通信方式

http://www.cnblogs.com/hapjin/p/5492619.html一，介绍本总结我对于JAVA多线程中线程之间的通信方式的理解，主要以代码结合文字的方式来讨论线程间的通信，故摘抄了书中的一些示例代码。二，线程间的通信方式①同步这里讲的同步是指多个线程通过synchronized关键字这种方式来实现线程间的通信。参考示例：public

2018-01-18 17:25:36 152

原创 java notify和wait

package com.data;public class Test { public static class AstronLock{ } public static class Produce implements Runnable{ private AstronLock astronLock; Produce(AstronLock

2018-01-18 17:14:54 188

原创 flink系列5 最简单的hello world

最简单的hello world //0.引入必要的程序元素import org.apache.flink.api.scala._object HelloFlink { def main(args: Array[String]): Unit = { // 1.设置运行环境 val env = ExecutionEnvironment.getExecutionEnviro

2018-01-15 11:19:38 2880

Python基本是我目前工作、计算、数据挖掘的唯一编程语言（除了符号计算用Mathematica外）。当然，基本的Python功能并不是很强大，但它胜在有巨量的第三方扩展库。在选用Python的第三方库时，我都会经过仔细考虑，希望能挑选出最简单的、最直观的一个（因为本人比较笨，太复杂用不了）。在数据处理方面，我用得最多的是Numpy和Pandas，这两个绝对称得上王者级别的库，当然不能不提的是Sc

2018-01-13 00:21:20 1160

原创天池工业AI大赛-智能制造质量预测

竞赛笔记ID466记录丢弃750X1452，750X1350，750X1442,750X717,750X718,420X186 这几个字段去掉代表TOOL_ID后面的一些列一直到下一个TOOL_ID，一系列工序都是在这个机台上进行的一个完整工序里的不同工位提交第一列不能是index在交叉验证的时候用cross_val_score(etr, x_train, y_train, cv=10, sco

2018-01-13 00:13:25 2783

原创通用特征选择方法

计算每一个特征与响应变量的相关性(皮尔逊系数和互信息系数) 构建单个特征的模型，通过模型的准确性为特征排序, 当选择到了目标特征之后，再用来训练最终的模型通过L1正则项来选择特征特性训练能够对特征打分的预选模型（RandomForest等) 可能还有一些其他更有效的特征选择或者提取方法

2018-01-12 23:34:00 399

原创 idea系列激活服务器

http://btsha.com:41017 不能用的 http://idea.iteblog.com/key.php

2018-01-11 19:09:56 2446 1

原创 import org.apache.flink.streaming.api.scala._

import org.apache.flink.streaming.api.scala._ 不引入这句话要报错？

2018-01-11 17:41:50 2133

原创 flink系列2 wordcount测试(windows)

参考文档 https://ci.apache.org/projects/flink/flink-docs-master/quickstart/setup_quickstart.htmlwindows上测试，linux上2017年4月的存档中有 1、准备工具。在百度或者google上搜索netcat-win32-1.11.zip。运行nc64 -l -p 9099。启动监听程序2、安

2018-01-11 16:10:22 2211

原创 flink系列1 程序win上启动

2018-01-11 14:30:24,595 INFO org.apache.flink.runtime.jobmanager.JobManager - --------------------------------------------------------------------------------2018-01-11 14:30:24,596 I

2018-01-11 15:50:04 1040 1

原创 mvn打包操作

mvn dependency:copy-dependencies 可以把依赖 jar 拷贝到 target/dependency

2018-01-09 16:39:10 299

原创 z270 1080ti ubuntu1610 cuda8 cudnn6下深度学习实验环境搭建 ubuntu1710和1704也适用

z270 1080ti ubuntu1610 cuda8 cudnn6下深度学习实验环境搭建astron最近一直很忙，搭建实验环境的事情从11月一拖再拖，每次只能搞几个小时就得等几周才能回归，终于有两天时间来搞自己的深度学习环境了。之前安装各个版本的软件，都遇到了兼容性问题。特此记录下。z270 这个主板上面可以安装单gpu。1080ti只能安装一台，两台据说有带宽问题，没有验证。操

2018-01-07 22:10:44 380

原创 java maven工程读取properties文件

java maven工程读取properties文件

2018-01-04 15:46:02 849

转载 Presto实现原理和美团的使用实践

https://tech.meituan.com/presto.htmlFacebook的数据仓库存储在少量大型Hadoop/HDFS集群。Hive是Facebook在几年前专为Hadoop打造的一款数据仓库工具。在以前，Facebook的科学家和分析师一直依靠Hive来做数据分析。但Hive使用MapReduce作为底层计算框架，是专为批处理设计的。但随着数据越来越多，使用Hive进

2018-01-04 14:23:48 543

原创 spark错误日志查看方法

查看错误日志yarn logs -applicationId application_1512098667219_5898489yarn logs -applicationId xxx执行方式spark-submit \--master yarn-cluster \--class com.jd.astron.jrdm.ClusterTest \--num-executors 1 \--

2018-01-03 21:11:37 5383

原创 spark2写orc方法总结

sdf.write.format("orc").mode("overwrite").saveAsTable("dev.astron_spark_test_result")

2018-01-03 19:10:29 3335 3

原创 spark程序编写要点

1、import org.apache.spark.sql.functions._ sparksql中的函数需要引入这个包2、尽量不适用join操作。推荐使用window窗口函数操作。 val resdf = sdf.withColumn(“age_avg”, avg(“weight”).over(Window.partitionBy(“sex”))) .withColumn(“w

2018-01-03 12:06:21 466

原创 hive定义表语句

drop table if exists `dev.astron_spark_test`;CREATE TABLE `dev.astron_spark_test`( age string, sex int, weight double)row format delimited fields terminated by '\t' select count(1) from dev.astron_

2018-01-02 21:43:33 302

原创 spark系列case class学习

scala> case class Message(sender: String, recipient: String, body: String)defined class Messagescala> val message1 = Message("guillaume@quebec.ca", "jorge@catalonia.es", "Ça va ?")message1: Message =

2018-01-02 16:09:18 3576

原创 scala系列1-scala解释器

scala> 1+1res0: Int = 2res0可以继续使用scala> res0res1: Int = 2拿不准的现在表达式交互行里面测试val和var val是常量，不能重新赋值。var是变量可以改变值

2018-01-01 22:10:51 319

云计算ppt1-20

《云计算（第三版）》配套PPT(1~20)《云计算（第三版）》配套PPT(1~20)

2017-10-08

刘鹏云计算资源

《云计算（第三版）》配套PPT(31~40).rar，《云计算（第三版）》配套PPT(31~40).rar