自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(26)
  • 问答 (1)
  • 收藏
  • 关注

原创 pg导数据双引号设置/pyspark的Dataframe修改列名

导数据\copy (select * from judgedoc limit 10) to '/home/sc/Downloads/tmp/judgedoc_tmp.csv' with (FORMAT csv,DELIMITER ',',escape '\\',header true,quote '"',FORCE_QUOTE *,encoding 'UTF-8');\cop...

2018-08-31 14:16:57 1490

原创 mysql教程

21分钟 MySQL 入门教程v 参考:https://www.cnblogs.com/mr-wid/archive/2013/05/09/3068229.html

2018-08-30 22:50:23 117

原创 类、接口与继承

类的概念: 参考:http://www.cnblogs.com/mr-wid/archive/2013/02/18/2916309.html一、"类" 的介绍 在C++中, 用 "类" 来描述 "对象", 所谓的"对象"是指现实世界中的一切事物。那么类就可以看做是对相似事物的抽象, 找到这些不同事物间的共同点, 如自行车和摩托车, 首先他们都属于"对象", 并且具有一定得相同点,...

2018-08-30 22:14:06 233

原创 学习数据库索引机制

为什么要学算法,一定是跟数据库索引机制等有关资源、效率;时间复杂度和空间复杂度直接相关的,参考:https://www.jianshu.com/p/814c1675361c

2018-08-29 22:46:22 105

原创 SVM原理

(1)SVM的引入,线性可分(通常,先是看二维)——后在一并假设在高维空间中也能找到一条线性可分的直线;由于直线可旋转,因此满足条件的有很多条,怎么选择最好的那一条,需要引入刻画该线性可分模型的分割,注意(此处两点定义:(1)一组数据(一组样本)到该线性可分直线的间隔的定义:取得是所有点中到这条直线间隔中最小的那条间隔;(2)模型好坏的定义:使正负样本距离这条线性直线间隔最大的那条直线;在此基础上...

2018-08-28 23:35:30 1088

原创 清洗api数据脚本/去掉字符首部为0,用于行业映射

if []: print('kk')else: print('ll')a=[]b = []s = {'a': 1, 'b': 2}for k in [{'a':1,'b':[2,4]}]: a.append(s['a']) b.append(s['b']) print(a) print(b) def __delete_head_zer...

2018-08-28 17:58:13 142

原创 pandas merge报错

pandas 做merge的时候报这个错:df22 = pd.merge(df1,df2,left_on='company_name',right_on = 'name',how='left')Process finished with exit code 137查了一下原因是:两个表太大了.可能导致内存不够;...

2018-08-27 15:22:56 2070

原创 word_count的scala学习

package com.zhouls.sparkimport org.apache.spark.SparkConfimport org.apache.spark.SparkContextimport java.lang.Systemobject WordCount { System.setProperty("hadoop.home.dir", "E:\\software\\Spa...

2018-08-26 18:10:42 222

原创 安装idea,跑scala程序,下载

参考:http://www.cnblogs.com/zlslch/p/5880926.html 下载Hadoop:E:\software\Spark\spark-2.3.1-bin-hadoop2.7\spark-2.3.1-bin-hadoop2.7解压tgz文件,下载7zip提取成tgz文件(tar压缩),再解压;按参考教程运行WordCount.scala的程序; 报这个错: ...

2018-08-26 14:55:08 186

原创 学习scala,java安装jdk及jre的问题

参照教程https://blog.csdn.net/qq_36764089/article/details/79330572 (1)安装scala,并且已经配置好环境变量,cmd窗口输入scala还是不行;(2)dos窗口下运行java可以,运行javac却报错 参考:https://jingyan.baidu.com/album/e5c39bf5819d8939d6603369.html...

2018-08-25 23:24:34 1349

原创 hdfs文件本地权限问题

Hadoop本地提交到线上:修改hdfs_cores.xml,vim打开,修改permission,用<– –>注释; 修改hdfs上的权限;用命令

2018-08-24 10:53:50 264

原创 Hadoop查看文件///hadoop 清洗文件出现乱码

hadoop fs -cat /hdfs/riskModelAuto/2018-07-24/mid/courtnotice_mid.csv/* | less hadoop 清洗文件出现乱码: 解决思路:可以看文件最前面有没有: import sys reload(sys) sys.setdefaultencoding(‘utf8’)以及文件用到的其他文件或者字典文件(多个文件可能有...

2018-08-22 10:00:38 1507

转载 热备份/冷备份/ 冷启动/热启动

冷备份(off, 慢, 时间点上恢复)冷备份发生在数据库已经正常关闭的情况下,当正常关闭时会提供给我们一个完整的数据库。冷备份是将关键性文件拷贝到另外位置的一种说法。对于备份数据库信息而言,冷备份是最快和最安全的方法。简单说法就是:离线(没有新的数据来)复制一份保存,有事就直接用这备份来恢复。冷备份的优点:是非常快速的备份方法(只需拷贝文件) 容易归档(简单拷贝即可) 容易恢复...

2018-08-20 11:29:01 810

原创 数值解和解析解/softmax回归/泰勒展开/牛顿法

在解组件特性相关的方程式时,大多数的时候都要去解偏微分或积分式,才能求得其正确的解。依照求解方法的不同,可以分成以下两类:解析解和数值解。解析解(analytical solution)就是一些严格的公式,给出任意的自变量就可以求出其因变量,也就是问题的解, 他人可以利用这些公式计算各自的问题. 所谓的解析解是一种包含分式、三角函数、指数、对数甚至无限级数等基本函数的解的形式。 用来求...

2018-08-17 00:16:35 1182

原创 window下解压zip和rar文件以及copy获取时间段内数据

.zip 和 .rar 是Windows下常用的压缩文件,在Ubuntu中如何解压?【解压.zip文件】Ubuntu中貌似已经安装了unzip软件,解压命令如下:1unzip ./FileName.zip如果没安装unzip的话,可以通过如下命令安装:1sudo apt-get install unzip【解压.rar文件】 #安装unrar软件#1...

2018-08-15 16:36:19 331

原创 特征向量/特征值/协方差矩阵/相关/正交/独立/主成分分析/PCA/

参考: http://deeplearning.stanford.edu/wiki/index.php/%E4%B8%BB%E6%88%90%E5%88%86%E5%88%86%E6%9E%90http://deeplearning.stanford.edu/wiki/index.php/%E7%99%BD%E5%8C%96对于一个二维数据(在x轴上有一个分布;在y轴上对应也有一个分布)...

2018-08-14 23:46:51 5498

原创 专题—贵州交通流预测的完成

1)熟悉题目 2)解决思路的梳理 将时间因子加入:将时间因子划分成几个段,比如4个:早上、中午、晚上、其他时间段; 将每一段公路的影响因素考虑作为样本输入向量:上游连接数、下游连接数、时间段、 输出:平均停留时间 每一段公路每一天都有时间段个数的样本向量(4个时间段对应4个输入向量),目的:预测未来某一天某个时间段的某条公路的平均停留时间; 参看了其他方式: LSTM:短时序列预...

2018-08-12 23:51:56 1027

原创 安装spark//python中os.path.abspath及os.path.join以及正态分布PPF

命令:vim ~/.bashrcsource ~/.bashrcps aux | grep sparkpkill -f "spark"sudo chown -R sc:sc spark-2.3.1-bin-hadoop2.7/sudo mv /home/sc/Downloads/spark-2.3.1-bin-hadoop2.7 /opt/$SPARK_HOME 查看spark的路...

2018-08-10 17:34:22 782

原创 Python提交

可用 python deploy.py --helppython deploy.py -m single -cls 'biz.feature.judgedoc.feature_extract_sue_by_bank_judgedoc.FeatureExtractSuebyBankJudgeDoc'

2018-08-09 10:08:18 262

原创 sql语句中where一定要放在group by 之前

select litigant_name,count(1) as defendant_judgedoc_cnt from df1 where litigant_type = '被告' group by litigant_name 如果where写在group by之后,会报如下错误:[192.168.31.10] out: select litigant_name,count(1) ...

2018-08-08 09:35:50 12058

原创 windows下安装pip,强制升级pip,安装tensorflow

python -m pip install -U –force-reinstall pip

2018-08-07 22:05:48 3776

原创 (1)用encode("utf8")把unicode编码变成str/(2)python中@property,@x.setter和@x.deleter/(3)MD5加密编码

(1)用encode(“utf8”)把unicode编码变成str, if isinstance(s, unicode): s = s.encode("utf8")(2)python中@property,@x.setter和@x.deleter@property可以将python定义的函数“当做”属性访问,从而提供更加友好访问方式,但是有时候setter/dele...

2018-08-07 09:16:16 226

原创 spark RDD的学习,filter函数的学习,split函数的学习

参考https://blog.csdn.net/xufangfang5206/article/details/80030300 https://www.cnblogs.com/ruoniao/p/6869319.html split是可以用多种不同的符号(转义字符,以及标点符号)作为分隔符的!!! (1)读取txt文件,按\t分隔,将分割出来的列大于指定列的滤掉,解析不准; 注意len...

2018-08-01 19:27:06 8077

原创 Python 全角转半角

参考:https://blog.csdn.net/ljp1919/article/details/68925023背景: 在做日文文本的处理时候,统一半全角字符。 分析: 说明: 全角字符unicode编码从65281~65374 (十六进制 0xFF01 ~ 0xFF5E) 半角字符unicode编码从33~126 (十六进制 0x21~ 0x7E) 特例: 空格比较特殊,全角...

2018-08-01 18:35:26 338

原创 查看spark进程运行状态以及安装spark

6、移动命令#hadoop dfs –mv /user/test.txt /user/test/7、拷贝命令#hadoop dfs –copytolocal /user/test.txt /opt/查看spark上面的运行情况;http://192.168.31.10:8080/# wc -l judgedoc_litigant.txt 查看文件有多少行;hto...

2018-08-01 18:30:20 9474

原创 正则表达式re.compile的学习

正则表达式功能十分强大。 “有些人面临一个问题时会想:‘我知道,可以用正则表达式来解决这个问题。’于是现在他们就有两个问题了”——Jamie Zawinski 同时正则表达式很难掌握。 正则表达式的各种规则就不在此赘述了,以下介绍在python的re模块中怎样应用正则表达式 1. 使用re.compilere模块中包含一个重要函数是compile(pattern [, flags]) ...

2018-08-01 18:22:13 736

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除