Amy-CSDN博客

原创 Windows安装人大金仓数据库&问题解决

官网下载windows对应的安装包下载授权文件。

2023-10-09 16:08:11 3409

环境：Win10家庭版，loadrunner11loadrunner11只支持IE9及以下，而Win10的IE是降不了级的，所以自己写的脚本，记录踩过的坑。1 安装按照教程安装比较顺利，但是破解时需要超级管理员权限，Win10默认是关闭超级管理员账号的，需要开启Administrator账号，方法自行百度。2 脚本因为与IE不兼容无法使用浏览器录制脚本，手写脚本，发送post请求，参数是json格式Action(){ web_add_header("Content-Type",

2021-04-29 18:22:55 3840

原创 Deep Learning学习笔记(5)——AlphaGo

读《神经网络与深度学习》一书，随笔。1 IBM深蓝下象棋深蓝打败卡斯帕罗夫用的是蛮力和一些启发式算法。其原理是：用评估函数评估当前棋盘的局势 + 在大量可能局势中挑最有利的。评估函数采用了8000多个因素来计算，需要非常专业的国际象棋知识。用博弈树搜索后面的6步，然后用评估函数在第6层上评估节点的质量，用评估函数的值替换了这个节点下的所有子树的概述，用极大极小算法找到下一步动作。围棋难在：（1）落子点太多，使得博弈树搜索到足够深度更困难；（2）评估函数太难设计。2 AlphaGo下围

2021-02-17 17:34:32 938

原创 Deep Learning学习笔记(4)——长短期记忆网络LSTM

读《神经网络与深度学习》一书，随笔。在NLP领域几乎都是序列标注问题，上下文信息非常重要，与图像有明显不同。本节需要HMM、Collins感知机、CRF等传统序列标注模型的基础才能好理解。1 RNN（Recurrent Network）前面学习的CNN更适合图像领域，而RNN是针对文本领域提出的，专门处理序列化数据的神经网络结构。RNN的一个循环神经单元和按时间展开后的样子如下图：数学表达式为：，理解为，t时刻的输出与当前的输入和上一时刻的输出有关。输入一句话时RNN的过程如下图，可

2021-02-16 18:37:20 674

原创 Deep Learning学习笔记(3)——卷积神经网络CNN

上篇学习的自编码器方式对前馈神经网络进行预训练，虽然解决了BP算法求解的缺陷，但是也产生了一个明显的缺点：训练时间长，因为要逐层学习特征抽取。在图像识别领域诞生了一个经典模型——CNN（卷积神经网络），它也用BP算法求解，但是没有Pre-train，却非常有效，属于带有前向反馈的网络。CNN优势：网络结构对平移、比例缩放、倾斜或其他形式的变形具有高度不变性。1. 神经认知科学的发现CNN 是从视觉皮层的生物学上获得启发的。1958年，大卫·休伯尔（David Hunter Hubel）和托斯

2021-02-16 13:33:18 764

原创 Deep Learning学习笔记(2)——前馈神经网络

读《神经网络与深度学习》一书，随笔。上篇提到前馈神经网络，那么针对多层的网络，如何求解隐层的权值呢？Hiton提出了BP算法，其核心思想是信号正向传播和误差反向传播，将误差分摊给各层的所有单元，从而获得各层单元的误差信号，此误差信号作为修正各单元权值的依据。1. BP算法的问题5层以内的神经网络，可以用BP算法训练，5层以上的神经网络用BP算法训练就很不理想。具体地，BP算法存在如下问题：（1）梯度越来越稀疏：从顶层往下，误差校正信号越来越小；（2）收敛到局部最小值。主要原因是，深度结构

2021-01-31 16:58:58 460

原创 Deep Learning学习笔记(1)——基础知识

读《神经网络与深度学习》一书，随笔。1. 深度学习历史中被人们津津乐道的几个片段2. 构造一个神经元模仿生物神经元的原理构造人工神经元，把一个现实生活中的实体抽象成一个数据模型往往是解决问题的第一步，如下图：...

2021-01-31 14:00:16 163

原创 spark实战(一)——eclipse环境下Spark Streaming+Kafka+Hbase

提示：这里可以添加系列文章的所有文章的目录，目录需要自己手动添加例如：第一章 Python 机器学习入门之pandas的使用提示：写完文章后，目录可以自动生成，如何生成可参考右边的帮助文档前言一、开发环境搭建二、使用步骤 1.引入库 2.读入数据总结前言应用场景：日志数据使用flume收集后发送给Kafka，需要将这些流式日志数据实时写入到Hbase中，使用Spark Streaming进行流式数据处理达到近似实时的效果。提示：以下是本篇文章正文内..

2020-12-10 09:27:12 503 1

原创 spark2学习之(六)——用shell脚本批量执行spark任务

应用场景：原始数据按日期存放在HDFS的某个目录下，需求是清洗数据，清洗后的结果仍然按天存入HDFS中，由于数据量巨大，spark无法一次性处理全部数据，所以只能一次读入一天的数据，写个脚本让spark任务自动按天处理数据。HDFS上数据位置：##HDFS目录结构/user/data/dt=20200801/user/data/dt=20200802/user/data/dt-20200803shell脚本：#!/bin/bashbegin=20200801end=20200

2020-08-26 11:18:49 1674

原创图数据库学习笔记

「JanusGraph与HugeGraph」图形数据库 - 技术选型-功能对比https://blog.csdn.net/lovebyz/article/details/88800363

2020-08-21 10:54:42 212

原创 Spark开发问题汇总（Java）

Spark（Java）的一些坑https://blog.csdn.net/Zsigner/article/details/101017389

2020-08-11 14:52:16 136

原创 GeoMesa+Hbase处理海量时空数据学习笔记

GeoMesa在处理大规模时空数据方面比较有名，华为的CloudTable底层是用的Hbase+GeoMesa，阿里的Hbase Ganos也是基于GeoMesa和GeoTools，两者官网有详细使用教程。1、概念备忘录OGC：开放地理空间信息联盟（Open Geospatial Consortium），一个非盈利的国际标准组织，它制定了数据模型和相关操作的一系列标准，GIS厂商按照这个标准进行开发可保证空间数据的互操作。GeoTools：一个遵循OGC标准，用于处理地理空间数据的工具包，实现了

2020-05-19 15:25:03 2462 1

原创 spark2学习之(五)——spark SQL(Java+eclipse+maven)

操作系统：Mac OS/Linux开发环境：java + eclipse + mavenspark SQL是spark的一个模块，可以用来操作结构化数据(如JSON、Hive、Parquet)和半结构化数据。1、DataFramespark SQL使用的最核心的数据类型是DataFrame，DataFrame结构如下图在DataFrame上支持直接运行SQL查询。可以从外部...

2019-08-12 00:24:52 1783

原创 spark2学习笔记之（四）——共享变量：广播变量(broadcast variable)

spark的第二种共享变量是广播变量，它可以让程序高效地向所有工作节点发送一个较大的只读值。1、广播变量的使用应用场景：想向所有工作节点发送机器学习训练的模型参数，e.g.命名实体识别、分词的模型参数。spark2.X的java代码如下：SparkConf conf = new SparkConf();conf.setAppName("RealNameDS");conf...

2019-08-11 22:44:53 1058

原创 spark2学习笔记之（三）——共享变量：累加器(Accumulator)

spark有两种类型的共享变量：累加器和广播变量。累加器用来对信息进行聚合，广播变量用来高效分发较大的对象。1、累加器使用应用场景：我们想在并发读取日志文件的同时统计出总共有多少空行。这需要一个全局变量，spark里提供了一个累加器可以实现这种效果。spark 2.X的代码如下：SparkConf conf = new SparkConf();conf.setAppName...

2019-08-08 16:38:36 595

原创 spark2学习笔记之（二）——RDD常用操作和函数

在spark里操作和函数是两个东西。操作分为转化操作和行动操作两种，区别是：转化操作：返回一个新的RDD，惰性求值行动操作：向驱动器程序(driver)返回结果，或者把结果写入外部系统，触发实际计算函数是用在转化操作内的，用来自己定义具体怎么转化的，详见第3小节。1、针对各个元素的转化操作基本RDD 函数名目的注意 filter（Func）找满...

2019-08-01 11:04:17 627

原创 spark2学习笔记之（一）——用spark-shell读取HDFS文件进行wordCount

1、ssh登录到master节点ssh -p端口用户名@ip，例如：ssh -p22 root@192.168.0.502、修改本地host文件hadoop中访问各个节点一般不直接只用ip，而是用主机名，所以复制master节点上已经配置好的host文件到本地执行cat /etc/hosts，将内容复制到本机的host文件里3、登录hadoop，上传一个文件到HDFS，用于...

2019-07-30 16:33:59 2400

原创红黑树、B+树、trie树应用场景

红黑树是近似的平衡二叉树AVL，损失了一定的平衡性，来降低维护平衡所需的代价。红黑树的应用：C++的STL库中的map和set java中的treeMap Linux的进程调度B树、B+树是多路查找树，分枝多层数少，减少查找时的磁盘IO。数据库里基本用的都是B+树Trie树又叫检索树、字典树，主要是对字符串内容建索引，对前缀查找速度要求很高的场景。耗内存，查找速度快，但插入、删...

2019-03-25 11:12:33 622 1

原创 MapReduce数据算法之（一）——二次排序

最近项目在用MapReduce，买了本《数据算法：Hadoop/Spark 大数据处理技巧》，收获颇多，记下学习笔记。我们知道MapReduce里除了常用的Text、IntWritable、LongWritable等基本数据类型以外，还支持自定义的复杂类型，自定义类型作为Value值时经常用到，但是作为Key没太懂什么情况下用。看了二次排序终于明白怎么用了。问题描述：有一堆温度的实验数...

2019-03-18 17:05:07 652

转载【解惑】深入jar包：从jar包中读取资源文件

http://hxraid.iteye.com/blog/483115

2013-07-15 14:33:05 473

原创 Occam's Razor(奥卡姆剃刀原理)

看到一些论文里老是提到“by Occam's Razor we should...”，Occam's Razor究竟是什么？wikipedia和智库百科上有详细的解释：http://en.wikipedia.org/wiki/Occam%27s_Razor 和http://wiki.mbalib.com/wiki/%E5%A5%A5%E5%8D%A1%E5%A7%86%E5%89%

2013-06-20 11:26:35 2564

转载 GibbsLDA++ 使用记录

记录下，以备忘记http://www.xperseverance.net/blogs/2012/03/655/http://weblab.com.cityu.edu.hk/blog/luheng/2011/06/24/%E7%94%A8gibbslda%E5%81%9Atopic-modeling/

2013-04-17 10:10:38 1052

原创用UltraEdit把98年人民日报语料转换成CRF++输入的格式（巧用正则表达式）

98年人民日报或者微软亚洲研究院的语料格式都是这样的，例如：我们行程接近尾声才算领教到了/O 北京/LOC 的狂风沙尘。/O”北京“是地名，”/LOC“是实体类型，其他所有内容都属于other，即在北京前面的所有内容都标记为”/O“，北京后面的所有内容也标记为”/O“.CRF++的格式是一行一个字，例如：领 O教 O到 O了 O北 B-LOC京 E-LOC

2012-12-21 17:51:38 1614

原创 python用正则表达式替换掉汉字、标点等指定字符以外的特殊字符

用习惯java的正则表达式，今天在python里也想用相同的正则处理一些文本，结果发现python和java的差别还挺大的，网上一顿搜索之后发现内容又是千篇一律，也满足不了我的需求，于是自己摸索后，总结python区别于java的几点注意事项：目标：替换掉汉字、英文、数字、常用中文标点符号以外的其他字符java实现：python实现：注意：（1）python

2012-10-31 21:48:02 23531

原创 Word2007里EndNote图标突然消失不见的原因及解决方法

一直使用word2007和EndNote X5写paper，今天调整参考文献顺序的时候word突然间挂了，再启动起来EndNote的图标就不见了，在网上查了查，解决方法千篇一律，但是都不很满意，主要原因是：1．一种解决方法是拷贝文件，我试了试，倒是成功了，但是在word2007里显示的样子变了，只有一堆图标，还挤在一起，感觉不如原来明了2．在word的加载项里勾选上EndNot

2012-10-31 21:11:08 15590

Amy的专栏