- 博客(201)
- 资源 (1)
- 收藏
- 关注
转载 【转载】【总结】pandas方法中的增删改查
在查方法的时候始终有些困扰发觉可以按照增加(Create)、读取查询(Retrieve)、更新(Update)和删除(Delete)来归纳pandas方法中的增删改查,打算近期整理下。最近遇到一个郁闷的问题,就是列名为日期的时候,使用字符串查询列会出现KeyError。但是你单独取df.columns出来,所得的类型又是str,郁闷死。取出来的是str,但是你用str是无法检索的,类型不对。有空得深究解决下这个问题初步探索:http://pandas.pydata.org/pandas-docs/
2022-04-22 10:37:57
929
原创 【泛函】赋范空间和Banach空间(数学知识用程序表达轻松学系列)
人们在研究各种实际数学问题时发现,虽然他们的研究对象不同(序列、函数、欧式空间中的点),但研究方法和技巧(距离、内积、逼近、微分)本质上是一样的。为了研究更加抽象的空间,并且运用已知空间的一些方法,对特殊空间做同样的变换和操作,我们需要定义一种抽象的长度,这种长度称为范数。知识图谱:Banach空间 -> 范数 -> 度量空间1、度量空间设XXX为集合,ddd为X×XX \times XX×X上的实值函数。称d为X上的度量(也称为距离),若d满足下述公理1、非负性:2、非退化性:
2022-01-03 00:34:42
1942
原创 python调libclang如何打印编译报错与调试信息(采用translation unit的diagnostic)
查询Clang文档,发现是调用C++的clang_getDiagnostic函数接口获取的。同理查询cindex.py发现如下信息: ("clang_getDiagnostic", [c_object_p, c_uint], c_object_p),其中如下代码引用了:class TranslationUnit(ClangObject): # ... (很多代码) ... @property def diagnostics(self): """
2021-06-01 09:54:46
624
转载 CPS Lecture
CPS LectureNo published books do this subject justice (including Dan’s!)Which part of (f (g (h i) j) k) can be done first? (h i), since itmust be evaluated before (g (h i) j) can be applied.What about (f (g (h i) (j k)))? Scheme doesn’t specify the ord
2021-04-23 20:27:46
159
原创 似然函数、最大似然与概率函数的关系
概率:在特性环境下,某件事件发生的可能性。概率在抛硬币之前是有意义的,由因推果似然:在某件事发生的情况下,产生这个结果的可能环境。似然在抛硬币之后才是有意义的,由果推因。假设概率表示为(公式1):P(x∣θ)\mathcal{P}(x \mid \theta)P(x∣θ)那么相对应的似然表示为(公式2):L(θ∣x)\mathcal{L}(\theta\mid x) L(θ∣x)...
2019-04-15 17:59:22
1262
原创 基本数学逻辑学符号(数学知识用程序表达轻松学系列)
目录基本符号复杂推理基本符号你好! 这是你第一次使用 Markdown编辑器 所展示的欢迎页。如果你想学习如何使用Markdown编辑器, 可以仔细阅读这篇文章,了解一下Markdown的基本语法知识。名称逻辑符号python等价逻辑与a∧ba\wedge ba∧ba and b逻辑或a∨ba\vee ba∨ba or b逻辑非∼a\sim a∼a...
2019-03-19 11:05:32
5192
原创 机器学习函数的python入门*(数学知识用程序表达轻松学系列)
前言在机器学习的公式中,我们经常看到一些比较陌生的函数和符号,如argmax、F*、∧等等,接下来我们就用python程序的视角进行解读,其实非常简单易懂。argmax和argmin函数:arg maxx∈S⊆X f(x):={x∣x∈S∧∀y∈S:f(y)≤f(x)}\underset{x\in S\subseteq X}{\op...
2019-03-07 16:43:40
313
原创 概率论的python入门【一】(数学知识用程序表达轻松学系列)
基本知识和原理:在概率论中,称ω(为方便,python示例代码写作w)为基本事件或样本。例如在抛硬币实验中,称ω1为“正面朝上”,称ω2为“背面朝上”,则可以表示为如下python代码: w1 = "正面朝上" w2 = "背面朝上"称Ω为样本空间(为方便,python示例代码写作Omega),则可有如下python表述: # 样本空间 Omega ...
2019-01-28 11:49:10
1891
原创 Lucene结合JavaEE建立简单搜索引擎(Java 9读取有坑)
最近试用了一下Lucene这个搜索框架,发觉还是蛮不错的。许多现在比较火的搜索服务器(如Elasticsearch)的内核用的就是Lucene。目前手头有一个小的JavaEE项目程序,想着再给它装一个Elasticsearch服务器似乎太浪费资源,所需要的搜索功能其实很简单,不需要太复杂。于是,何不趁机学学它的内核框架Lucene如何使用呢? 使用Lucene有很多种模式,本文就拿最简单...
2018-09-02 17:11:50
827
原创 tomcat https配置不上,记一次keystore与key不同的报错问题
按照官方教程配置好server.xml后,无论怎么启动tomcat,死活都无法访问加密网页。在cmd下开启tomcat发现如下报错27-Aug-2018 15:39:26.420 信息 [main] org.apache.catalina.startup.VersionLoggerListener.log Server version: Apache Tomcat/9.0.11...
2018-08-27 15:40:38
4910
原创 PySpark操作
基本操作:运行时获取spark版本号(以spark 2.0.0为例):sparksn = SparkSession.builder.appName("PythonSQL").getOrCreate()print sparksn.version获取spark配置情况(crossJoin等等):df = spark.sql("SET -v")df.show()显示每列的所有内容,不删减内容显示,sho...
2018-04-25 14:12:48
5168
原创 用程序语言理解量子力学公式
我们看量子力学的时候,总是会被一些不太严谨的公式搞得一头雾水。里面包含了大量的简化让人摸不着头脑。下面我们试着把公式,用程序语言中“函数”的观点来重新理一理思路。我们会发现其中的含义一目了然: 无限空间的厄米性条件: <φ|G^|ψ>=<G^φ|ψ>=<ψ|G^φ>∗<φ|G^|ψ>=<G^φ|ψ>=<ψ|G^φ>∗...
2018-03-30 15:14:43
1486
原创 springboot + spark + hadoop
可以在一个Controller里面实现spark抓取的代码: import org.apache.spark.sql.Dataset;import org.apache.spark.sql.Row;import org.springframework.web.bind.annotation.RequestMapping;import org.springframework.web....
2018-01-23 10:51:31
7436
原创 协方差公式推导
协方差公式推导cov(X,Y)=∑ni=1(Xi−X¯)(Yi−Y¯)n=E[(X−E[X])(Y−E[Y])] cov(X,Y)=\frac{\sum_{i=1}^{n}(X_i-\bar{X})(Y_i-\bar{Y})}{n}=E[(X-E[X])(Y-E[Y])] =E[XY−E[X]Y−XE[Y]+E[X]E[Y]] =E[XY-E[X]Y-XE[Y]+E[X]E[Y]] 因为均值
2017-05-24 14:57:47
34700
原创 初学pandas(八)条件选取行的便捷…
我们说excel好用,在处理大型数据表格的时候,excel可以非常方便地进行筛选。那么pandas是否有类似的功能呢?答案是肯定的。下面介绍的几个操作,返回的类型都是dataframe,因此可以进行嵌套操作,非常方便。一、选取几列组成新的dataframe: df = df[['A列列明', 'S列列明', 'H列列明']]二、选取某列'STATUS'里面元素为"ACTIVE"的行,即
2017-04-21 10:55:49
21721
原创 初学pandas(七)坑爹版本与resamp…
起因是写好的一程序,放到服务器上跑就失败了。搜索网上半天没找着原因。 pandas有个库可以让一时间序列按周(月或年等)汇总,如进行数据分析的时候,需要将不均匀的时间戳数据按照月来汇总排列,那么就需要用到resample函数。使用resample有个要求,就是dataframe的index要为时间序列类型的。一般的index不是从0到n,就是字符串,那样的话没办法resample。所以我们要
2017-04-21 10:55:46
3309
原创 JTextPane实现文字图片插入、发送
其实不需要JEditorPane,Java提供的JTextPane本身就可以实现文字、图片同时插入,并发送。这里界面设计与功能实现分成2个文件来写。界面是用Netbeans画的,里面有2个JTextPane和2个JButton,文件为ImageTextPaneForm.java。功能实现的类为ImageTextPaneController.java:ImageTextPaneControlle
2017-04-21 10:55:43
3462
原创 【Fortran IVF】unresolved&n…
配置好IVF(Intel VisualFortran)的时候,发现无法编译,于是查找原因1>------ Buildstarted: Project:HelloIVFpi, Configuration:Release x64 ------1>Linking...1>paralism.obj :error LNK2019: unresolved external symbo
2017-04-21 10:55:41
1041
原创 初学pandas与seaborn(六)制作散…
散点矩阵图(也称SPLOM,或ScatterplotMatrix)用于粗略展现N列数据中,不同列之间的关系,可以粗略估计哪些变量是正相关的,哪些是负相关的,进而为下一步数据分析提供决策。许多统计语言里面都有非常方便的函数生成散点矩阵图,比如说R。那么Python语言有没有呢?答案还是seaborn图形库。 其实seaborn库生成的散点矩阵图不是常规的散点矩阵图,其斜对角标注的不是列名,而
2017-04-21 10:55:38
1482
原创 如何写个让别人能用lambda往里塞的…
最近函数式编程很火,大家都开始各种用lambda表达式。我们如何让别人也在我们自己写的类里面用lambda表达式呢?换句话说,我们要造一个输入lambda表达式的成员函数,或者静态函数,怎么办?其实仔细分析,大多数调用lambda表达式,都是基于原来的固定接口Function、Predicate和Comsumer(如foreach接口),那么我们相应调用就好。import java
2017-04-21 10:55:32
395
原创 【解答】Spark从hadoop取数是分布…
Hadoop上的文件是集中到master再交给Spark进行计算的吗?Spark如何获取数据资源,集中从namenode获取?还是从各个datanode分别获取呢?初学Spark的时候都有疑惑,Spark本身的确可以搭建分布式运算集群,由主机分发计算任务到各个slaves进行计算。但是计算任务由数据和算法组成,在处理大量数据的时候,是怎么进行操作的呢?需要自己主动编程实现吗?还是说配置好Ha
2017-04-21 10:55:29
897
原创 数学表述中的一些绕弯现象
(一) 最近学图论,看一本书定义图为G=(V,E),V中的元素vi成为节点,E中的元素ek称为边。其中有这么一段话,说假设2个点u、v属于属于V,而(u,v)属于E,则称u,v两点相邻。 啥?你既属于他又属于她你俩就相邻了?翻译成大白话是啥意思呢? 我们知道V点集是图G里面的点(因为开头这么定义的),而E边集合是图G里面的边(因为开头也是这么定义的),但其实这里有个隐含条件,E的
2017-04-21 10:55:26
459
原创 Spark在Windows下运行,本地提交sp…
【问题】Spark在windows能跑集群模式吗?我认为是可以的,但是需要详细了解cmd命令行的写法。目前win下跑spark的单机模式是没有问题的。【关键点】spark启动机制容易被windows的命令行cmd坑 1、带空格、奇怪字符的安装路径,cmd不能识别。最典型的坑就是安装在ProgramFiles文件夹下的程序,因为Program和Files之间有个空格,所以cmd竟不能识别
2017-04-21 10:55:24
4278
原创 OOZIE使用Email提醒详解
下班不在公司,让大数据任务在跑着。到底跑完没有呢?我总不能老主动去公司登录来看吧?是不是该有个任务提醒机制?是的,这就是OOZIE的EMAILaction功能。 【原理】OOZIE并不是自己拥有个邮件服务器,而是得借助远程的邮箱账户来发送邮件。这里我们假设注册了一个test@163.com的邮箱,使用163的smtp服务器(地址是smtp.163.com)。理论上根据目前OOZIE的原理,只
2017-04-21 10:55:20
8743
原创 【概述】Hadoop、Yarn、Spark基本…
网上说得纷飞复杂的,其实要想简单用起来,Hadoop、Yarn、Spark的基本构架都很简单,如下图所示,都是一个总分的结构: 最初大数据的发明,就是为了解决一台机子做不了事情的问题。比如你一台机子硬盘大概2TB大小,但是我一个数据文件就有10TB大……那确实没办法。有人说,不是可以像数据库那样分开不同的库存储吗?但随着信息时代的发展,还真就有单个文件这么大的东西了。那只能把几个机子合并
2017-04-21 10:55:17
477
原创 【解决】WARN YarnClusterSch…
参考办法http://blog.sina.com.cn/s/blog_4b1452dd0102wyzo.html解决解决 WARN YarnClusterScheduler: Initial job has not accepted anyresources; check your cluster UI to ensure that workers areregistered and ha
2017-04-21 10:55:14
1199
原创 WARN YarnClusterScheduler: not a…
解决了pyspark找不到"python"的问题以后:【新问题】查看目标节点8042端口web ui中applicationlist里面的container的logs,发现无法分配资源的老问题:17/02/26 22:33:11 WARNYarnClusterScheduler: Initial job has not accepted any resources;check your
2017-04-21 10:55:11
763
原创 yarn上报错Cannot run program "python": error=2, No such file or dictory…
配置好yarn《【解决】处于ACCEPTED状态不running,Oozie提交pyspark任务后》,并解决宕机问题《运行yarn宕机(pyspark任务,通过Oozie提交)》后,出现新的问题:java.io.IOException: Cannot runprogram "python": error=2, No such file or directoryatjava.lang.Proc...
2017-04-21 10:55:08
9617
1
原创 运行yarn宕机(pyspark任务,通过O…
添加fair调度器以后,pyspark任务能成功提交到与big2不同的big1机子上,但是big1机子宕机了…… 回头查日志,是这样的:ERRORorg.apache.hadoop.yarn.server.nodemanager.NodeManager: RECEIVEDSIGNAL 15: SIGTERM 2台运行节点node在vmware里面都增加到4GB的内存以后,pyspa
2017-04-21 10:55:05
1213
原创 Oozie启动job状态SUSPENDED报错Inv…
从已经成功连接的机子考过来的一个编译得比较靠谱的oozie 4.3.0,运行一个样例程序,结果报错:2017-02-23 18:57:48,667 WARN ActionStartXCommand:523 - SERVER[bigmaster]USER[hadoop] GROUP[-] TOKEN[] APP[SparkFileCopy]JOB[0000000-1702231857125
2017-04-21 10:55:02
2479
原创 [win下pycharm运行spark]IOExcepti…
最近一直在钻研IDE直连spark的问题。用vmware建了3个虚拟机,来跑spark集群。安装的python版本是anaconda2的python2在使用pycharm编写pyspark程序连接虚拟机的时候,出现了这样的问题:17/02/23 16:58:52 WARNTaskSetManager: Lost task 1.0 in stage 0.0 (TID 1, hadoop)
2017-04-21 10:54:59
883
原创 解决hadoop@ubuntu:~$老以ubuntu作…
许多人抱怨ubuntu系统,大概就是一些讨厌的预设配置,比如说hostname。最近做hadoop虚拟机集群,配完ssh密钥以后,发现互相登录——诶?怎么大家都叫做xxx@ubuntu?卧槽……这怎么整……Orz 这样不行啊。记得老早刚学习hadoop的时候就被这个ubuntu的hostname困扰不已,之前配成功了估计还是靠着运气。而这运气也并不是完全行得通,会出现启动hadoop要把/e
2017-04-21 10:54:56
852
原创 【终极解决】Java gateway&nb…
"D:\Program files\Anaconda2\python.exe"C:/Users/PycharmProjects/helloworld/spark1.py SPARK_HOME not inos.environ SPARK_JARS_DIR already set== D:\!spark-1.6.2\jars "setPYTHONHASHSEED=0" "run spark-c
2017-04-21 10:54:53
6120
2
原创 Junit测试比较Date的时候明明相等…
使用系统的Calendar.getInstance()方法获取Date的时候是带有系统毫秒数的,如果不进行设置,就会悲剧。通过用getTime()方法打印精确到毫秒的long参数,对比发现果然是毫秒部分差异的问题。可以添加cal.set(Calendar.MILLISECOND, 0)来设置毫秒清零。
2017-04-21 10:54:51
1306
原创 【解决】处于ACCEPTED状态不runnin…
Oozie提交pyspark任务后yarn 8088一直处于ACCEPTED状态不运行running这个问题困扰了我一个周末……一个周末……(然后其实后面又困扰了一周)而且重启注销,不懂是不是因为ubuntu kylin不稳定【结果】是因为单集群的问题,导致yarn一次只能运行一个job。在服务器上跑就没有事儿,在自己的虚拟机上跑就不行,因为没配备多个虚拟机。——————【你以为是这样就大
2017-04-21 10:54:48
20686
1
原创 【Maven更换镜像源、更换tomcat源…
更换Maven源: 之前在服务器上编译的时候,更换maven安装目录里面的配置文件,似乎下载还是到某个特别慢的镜像去下载,并没有按照自己更改配置的地址去下载,慢出翔了。 经过排查,发现原来oozie编译文件pom.xml自己指定了源。。。。。。真是找干啊! 于是解决办法就出来了,在 oozie解压目录/pom.xml 文件中作如下改动:
2017-04-21 10:54:45
1740
原创 Oozie报错ClassNotFoundException:…
RuntimeException:java.lang.ClassNotFoundException: Classorg.apache.oozie.action.hadoop.SparkMain not foundatorg.apache.hadoop.conf.Configuration.getClass(Configuration.atorg.apache.oozie.action.
2017-04-21 10:54:39
5276
1
原创 Oozie 4.3.0运行Error: …
fs://master2host:9000/user/master2/share/lib/spark/py4j-0.9.jar,hdfs://master2host:9000/user/master2/share/lib/spark/avro-ipc-1.7.7-tests.jar,hdfs://master2host:9000/user/master2/share/lib/spark/quasi
2017-04-21 10:54:36
920
原创 OOZIE系统成功【2】跑通定时调度的…
【要点】OOZIE跑spark程序会遇到这么一个奇葩的现象:在oozie查job的info,显示SUCCEEDED。去8088端口的yarn那儿查,也显示SUCCEEDED。然后进hdfs看看生成的结果——啥文件都没有。这是什么情况!【原因】编写workflow.xml文件的时候,生成目的地的地址,一定要在最后加斜杠。如果输出结果要放到 /usr/oozie/output中的spark文件夹里
2017-04-21 10:54:33
2589
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人