2017年09月_Soyoger

12月 11月 10月 09月 08月 07月 06月 05月 04月

原创 python中使用selenium错误Geckodriver executable needs to be in PATH’

意思就是在根目录下，找不到Geckodriver 。python中导入Selenium时正常，但是下面使用时有时候会出现下边的错误：from selenium import webdriverbrowser = webdriver.Firefox( )browser.get('http://baidu.com')print(browser.title)运行抛出下面的错误

2017-09-30 14:48:59 2538

原创爬虫基于ADSL动态获取ip

爬虫访问中，如何解决网站限制IP的问题？开发了一个爬虫，布置在自己的服务器上，请求某网站的查询功能，然后抓取查询结果，结果访问才一会儿，就被提示封IP了。有什么好的解决方法吗？ 1. 某宝买代理，简单，但是太贵；2. ADSL动态获取ip。java代码：package com.sesame.network; import java.i

2017-09-27 17:41:29 3190

原创用BeautifulSoup来写python爬虫

爬虫定位网站：http://www.yanglao.com.cn/代码很简单，单线程，可优化的地方很多：如下：# -*- coding: utf-8 -*-"""Created on Wed Sep 27 16:37:57 2017@author: ESRI"""from bs4 import BeautifulSoup as bsimport urll

2017-09-27 17:17:45 1132

原创 Python函数式编程——map()、reduce()

python的reduce()函数reduce()函数也是Python内置的一个高阶函数。reduce()函数接收的参数和 map()类似，一个函数 f，一个list，但行为和 map()不同，reduce()传入的函数 f 必须接收两个参数，reduce()对list的每个元素反复调用函数f，并返回最终结果值。例如，编写一个f函数，接收x和y，返回x和y的和：

2017-09-26 22:26:01 449

原创 python dict sorted 排序

我们知道Python的内置dictionary数据类型是无序的，通过key来获取对应的value。可是有时我们需要对dictionary中的item进行排序输出，可能根据key，也可能根据value来排。到底有多少种方法可以实现对dictionary的内容进行排序输出呢？下面摘取了一些精彩的解决办法。 #最简单的方法，这个是按照key值排序： def sortedDictValue

2017-09-26 16:14:40 11405

原创 Jupyter Notebook 的快捷键

Jupyter Notebook 有两种键盘输入模式。编辑模式，允许你往单元中键入代码或文本；这时的单元框线是绿色的。命令模式，键盘输入运行程序命令；这时的单元框线是灰色。命令模式 (按键 Esc 开启)Enter : 转入编辑模式Shift-Enter : 运行本单元，选中下个单元Ctrl-Enter : 运行本单元Alt-Enter : 运行本单元，在其下插入新单元Y : 单元转入

2017-09-25 22:52:23 415

原创 esri geometry-api-java的maven创建

使用esri的geomotry api，官方文档比较老，一般根据maven创建。源码创建:Download and unzip the .zip file, or clone the repository.Deploy the esri-geometry-api.jar to the target system, add a reference to it in a Java pr

2017-09-22 14:19:05 2279

Spring Boot以一种新的微服务的方式来替代以Spring Framework构建项目的传统方式，我已经计划在后续的项目开发中使用它。它已经帮我们做了90%的工作，剩下10%的工作需要我们自己去完成。对于我来说，自定义错误页面就是其中之一。比如404错误，如果不处理的话，会出现“This application has no explicit mapping for /error, so y

2017-09-22 11:56:19 1518

原创 spring boot项目打包成war并在tomcat上运行的步骤

原文地址:http://m.blog.csdn.net/article/details?id=52515226把spring-boot项目按照平常的web项目一样发布到tomcat容器下一、修改打包形式在pom.xml里设置 war二、移除嵌入式tomcat插件在pom.xml里找到spring-boot-starter-web依赖节点，在其中添加如下代

2017-09-22 11:30:43 524 3

原创深入理解python之self

首先明确的是self只有在类的方法中才会有，独立的函数或方法是不必带有self的。self在定义类的方法时是必须有的，虽然在调用时不必传入相应的参数。self名称不是必须的，在python中self不是关键词，你可以定义成a或b或其它名字都可以,但是约定成俗，不要搞另类，大家会不明白的。下例中将self改为myname一样没有错误：1 class Person:2

2017-09-20 21:50:07 675

原创 python之Queue

创建一个“队列”对象import Queuemyqueue = Queue.Queue(maxsize = 10)Queue.Queue类即是一个队列的同步实现。队列长度可为无限或者有限。可通过Queue的构造函数的可选参数maxsize来设定队列长度。如果maxsize小于1就表示队列长度无限。将一个值放入队列中myqueue.put(10)调用队列对象的put()方法在

2017-09-20 20:58:20 1273

原创 python中使用pickle进行序列化

python的pickle模块实现了基本的数据序列和反序列化。通过pickle模块的序列化操作我们能够将程序中运行的对象信息保存到文件中去，永久存储；通过pickle模块的反序列化操作，我们能够从文件中创建上一次程序保存的对象。　　基本接口：　　pickle.dump(obj, file, [,protocol])　　注解：将对象obj保存到文件file中去。　　　　　pr

2017-09-19 18:14:23 1437

原创计算feometry面积esri/geometry/geometryEngineAsync

Object: esri/geometry/geometryEngineAsync[ AMD Module Require | Legacy Module Require ]Methodsrequire(["esri/geometry/geometryEngineAsync"], function(geometryEngineAsync) { /* code goes here */ });Des...

2017-09-18 16:17:15 1517

原创机器学习中梯度下降法和牛顿法的比较

在机器学习的优化问题中，梯度下降法和牛顿法是常用的两种凸函数求极值的方法，他们都是为了求得目标函数的近似解。在逻辑斯蒂回归模型的参数求解中，一般用改良的梯度下降法，也可以用牛顿法。由于两种方法有些相似，我特地拿来简单地对比一下。下面的内容需要读者之前熟悉两种算法。梯度下降法梯度下降法用来求解目标函数的极值。这个极值是给定模型给定数据之后在参数空间中搜索找到的。迭代过程为：可以看出，

2017-09-18 10:40:14 1092

原创 python字符串连接优先使用jion而非+

假如有str1,str2,str3三个字符串，则：1. 用+连接如下>>>str1+str2+str32.用join连接如下>>>''.join([str1,str2,str3])

2017-09-17 22:59:56 763

原创 Newton法（牛顿法 Newton Method）

平时经常看到牛顿法怎样怎样，一直不得要领，今天下午查了一下维基百科，写写我的认识，很多地方是直观理解，并没有严谨的证明。在我看来，牛顿法至少有两个应用方向，1、求方程的根，2、最优化。牛顿法涉及到方程求导，下面的讨论均是在连续可微的前提下讨论。 1、求解方程。并不是所有的方程都有求根公式，或者求根公式很复杂，导致求解困难。利用牛顿法，可以迭代求解。原理是利用泰勒公式，在x0处展开，

2017-09-16 15:30:47 37758 1

原创 hdfs统计某个目录下的文件数

hadoop fs -count 统计hdfs对应路径下的目录个数，文件个数，文件总计大小显示为目录个数，文件个数，文件总计大小，输入路径例如：hadoop fs -count /data/dltb3yi/ 1 24000 253953854502 /data/dltb3yi/ 获得24000个文件

2017-09-16 14:16:00 40674 4

原创 spring-boot 添加http自动转向https

今天主要遇到的2个问题，第一个是springboot遇到跨域的问题，这个问题解决完之后，还以为整个事情就结束了。万万没想到，由于我们前端的所有访问都是https的，所以springboot也需要配置https的访问，所以用jdk自带的生成ssl，然后配置打包，这下OK了。SSL是为网络通信提供安全以及保证数据完整性的的一种安全协议，SSL在网络传输层对网络连接进行加密。什么是https

2017-09-15 16:05:41 2891 2

原创 JSONP跨域请求数据报错 “Unexpected token :”的解决办法

在使用ajax请求的时候，遇到跨域的问题，一般解决办法有三种：1. 使用代理；2. 使用jsonp3. 资源共享这里，我使用了jsonp，由于第一次使用，这里遇到报错 “Uncaught SyntaxError: Unexpected token :”，主要问题在于返回的数据格式不正确。正确的ajax使用jsonp的方式：var restUrl = 'http://lo

2017-09-15 15:34:18 4515

原创牛顿-莱布尼茨公式

牛顿-莱布尼兹公式（Newton-Leibniz formula），通常也被称为微积分基本定理，揭示了定积分与被积函数的原函数或者不定积分之间的联系。牛顿-莱布尼茨公式的内容是一个连续函数在区间 [ a，b ] 上的定积分等于它的任意一个原函数在区间[ a，b ]上的增量。牛顿在1666年写的《流数简论》中利用运动学描述了这一公式，1677年,莱布尼茨在一篇手稿中正式提出了这一公式。因为二者最

2017-09-14 13:23:23 25770

原创 fastjson对json字符串JSONObject和JSONArray互相转换操作示例

package com.tapt.instance;import com.alibaba.fastjson.JSON;import com.alibaba.fastjson.JSONArray;import com.alibaba.fastjson.JSONObject;public class Jsontest {public static void main(String[] ar

2017-09-14 10:11:11 9428

原创数据挖掘应用的一些场景和对应算法

数据挖掘越来使用广泛，下爱你介绍一些常见的使用场景以及对应的算法：1. 客户细分：典型的分类问题2.客户流失预测分析：当作一个识别问题处理3.客户社会关系挖掘：关联分析以及基于图的关联分析4.业务交叉销售：实现方法有关联规则挖掘、相关分析、主成分分析等 5.欺诈客户识别：异常点或者离群点分析

2017-09-13 17:59:08 4954

原创离群点（oulier）挖掘详解

异常对象被称作离群点。异常检测也称偏差检测和例外挖掘。常见的异常成因：数据来源于不同的类（异常对象来自于一个与大多数数据对象源（类）不同的源（类）的思想），自然变异，以及数据测量或收集误差。异常检测的方法：（1）基于模型的技术：首先建立一个数据模型，异常是那些同模型不能完美拟合的对象；如果模型是簇的集合，则异常是不显著属于任何簇的对象；在使用回归模型时，异常是相对远离预测值的对象。

2017-09-13 15:18:24 9752

转载数据挖掘之关联分析七（非频繁模式）

非频繁模式非频繁模式，是一个项集或规则，其支持度小于阈值minsup.绝大部分的频繁模式不是令人感兴趣的，但其中有些分析是有用的，特别是涉及到数据中的负相关时，如一起购买DVD的顾客多半不会购买VCR，反之亦然，这种负相关模式有助于识别竞争项(competing item)，即可以相互替代的项。某些非频繁模式也可能暗示数据中出现了某些罕见事件或例外情况。如，如果{火灾=yes}是频繁的

2017-09-12 17:00:34 1327

转载数据挖掘之关联分析六（子图模式）

子图模式频繁子图挖掘（frequent subgraph mining）：在图的集合中发现一组公共子结构。图和子图图是一种用来表示实体集之间联系的数据结构。子图，图是另一个图的子图，如果它的顶点集V'是V的子集，并且它的边集E'是E的子集，子图关系记做。支持度，给定图的集族 , 子图的支持度定义为包含它的所有图所占的百分比。

2017-09-12 16:48:34 2763

原创数据挖掘之关联分析五（序列模式）

购物篮数据常常包含关于商品何时被顾客购买的时间信息，可以使用这种信息，将顾客在一段时间内的购物拼接成事务序列，这些事务通常基于时间或空间的先后次序。问题描述一般地，序列是元素（element）的有序列表。可以记做，其中每个是多个事件的集簇，即，如web站点访问者访问的web页面序列：计算机科学主修课程序列：序列可以用它的

2017-09-12 16:34:21 1821

原创数据挖掘之关联分析四（连续属性处理）

处理连续属性挖掘连续属性可能揭示数据的内在联系，包含连续属性的关联规则通常称作量化关联规则（quantitative association rule）。主要讨论三种对连续数据进行关联分析的方法基于离散化的方法基于统计学的方法非离散化方法基于离散化方法离散化是处理连续属性最常用的方法，这种方法将连续属性的邻近值分组，形成有限个区间，例如，年龄属性可以形成如下区间年龄

2017-09-12 16:18:13 3291

原创数据挖掘之关联分析三（规则的产生）

规则产生忽略那些前件和后件为空的规则，每个频繁k项集能够产生个关联规则。将频繁项集Y划分为两个非空子集X和Y-X，使得能满足置信度阈值，就可以得到满足条件的规则。在计算规则的置信度时并不需要再次扫描事务数据集，因为产生规则的频繁项集和它们的子集也都是频繁项集，我们在提取频繁项集时，已经计算过它们的支持度计数，因而不需要再扫描所有的数据集。基于置信度的剪枝置信度不像支持度那样

2017-09-07 11:46:48 613

原创数据挖掘之关联分析二（频繁项集的产生）

频繁项集的产生格结构（lattice structure）常常用来表示所有可能的项集。发现频繁项集的一个原始方法是确定格结构中每个候选项集的支持度。但是工作量比较大。另外有几种方法可以降低产生频繁项集的计算复杂度。减少候选项集的数目。如先验(apriori)原理，是一种不用计算支持度而删除某些候选项集的方法。减少比较次数。利用更高级得到数据结构或者存储候选项集或者压缩数据集来减

2017-09-07 11:25:27 2603

转载数据挖掘之关联分析一（基本概念）

许多商业企业运营中的大量数据，通常称为购物篮事务（market basket transaction）。表中每一行对应一个事务，包含一个唯一标识TID。利用关联分析的方法可以发现联系如关联规则或频繁项集。关联分析需要处理的关键问题：从大型事务数据集中发现模式可能在计算上要付出很高的代价。所发现的某些模式可能是假的，因为它们可能是偶然发生的。二元表示没按过对应一个事务，每

2017-09-07 10:54:41 3565

原创浅谈数据挖掘中的关联规则挖掘

数据挖掘是指以某种方式分析数据源，从中发现一些潜在的有用的信息，所以数据挖掘又称作知识发现，而关联规则挖掘则是数据挖掘中的一个很重要的课题，顾名思义，它是从数据背后发现事物之间可能存在的关联或者联系。举个最简单的例子，比如通过调查商场里顾客买的东西发现，30%的顾客会同时购买床单和枕套，而购买床单的人中有80%购买了枕套，这里面就隐藏了一条关联：床单—>枕套，也就是说很大一部分顾客会同时购买床单和

2017-09-07 10:11:00 2575

原创 K-means聚类算法详解

K-means也是聚类算法中最简单的一种了，但是里面包含的思想却是不一般。最早我使用并实现这个算法是在学习韩爷爷那本数据挖掘的书中，那本书比较注重应用。看了Andrew Ng的这个讲义后才有些明白K-means后面包含的EM思想。聚类属于无监督学习，以往的回归、朴素贝叶斯、SVM等都是有类别标签y的，也就是说样例中已经给出了样例的分类。而聚类的样本中却没有给定y，只有特征x，比如假设宇宙中的星

2017-09-07 09:10:38 13906 2

原创使用chrony代替ntp同步时间

Chrony是一个开源的自由软件，它能帮助你保持系统时钟与时钟服务器（NTP）同步，因此让你的时间保持精确。它由两个程序组成，分别是chronyd和chronyc。chronyd是一个后台运行的守护进程，用于调整内核中运行的系统时钟和时钟服务器同步。它确定计算机增减时间的比率，并对此进行补偿。chronyc提供了一个用户界面，用于监控性能并进行多样化的配置。它可以在chronyd实例控制的计算机上

2017-09-06 16:40:22 27883

原创 scala使用implicit实现扩展已有功能

一般用在2种情况下，一种是扩展已有类的功能，特别是使用第三方的jar包中类；另一种是函数的隐式参数。举例来说明1. 扩展类的功能假设该类是第三方jar包中的类class A (val data:Int){ ...}此时我们希望扩展该类的功能，增加类A的数据显示功能implicit class B(a:A) { def show {

2017-09-06 14:43:00 1405

原创 ajax封装回调函数代码

有时候项目需要封装ajax代码，请看一下内容： var ajaxfuncURL = function (url,type,restData,callback) { $.ajax({ url: url, type: type, dat...

2017-09-06 11:18:05 2146

原创 js实现鼠标拖拽功能基本思路

如果要设置物体拖拽，那么必须使用三个事件，并且这三个事件的使用顺序不能颠倒。onmousedown：鼠标按下事件onmousemove：鼠标移动事件onmouseup：鼠标抬起事件拖拽的基本原理就是根据鼠标的移动来移动被拖拽的元素。鼠标的移动也就是x、y坐标的变化;元素的移动就是style.position的 top和left的改变。当然，并不是任何时候移动

2017-09-02 18:25:52 15843

原创 requireJS和seajs区别？

都是用来处理js模块加载，采用的定义规范不同，requireJS采用的是AMD，seajs采用的是CMD.AMD,CMD,CommonJS是目前最常用的三种模块化书写规范。CommonJSCommonJS规范是诞生比较早的。NodeJS就采用了CommonJS。是这样加载模块：var clock = require('clock');clock.start();这

2017-09-02 16:39:02 919

JAVA码头船只出行及配套货柜码放管理系统的设计与实现

JAVA码头船只出行及配套货柜码放管理系统的设计与实现 1 资源目录介绍 2 安装配置 3 前期准备 a、安装好MySQL数据库 b、安装配置java环境 c、安装配置好Tomcat 4 初始化数据库 a、创建数据库 b、执行数据库脚本文件，初始化数据库 5 部署系统 6 启动测试

2022-12-02

基于Java的银行排号系统的设计与实现

基于Java的银行排号系统的设计与实现 1 资源目录介绍 2 安装配置 3 前期准备 a、安装好MySQL数据库 b、安装配置java环境 c、安装配置好Tomcat 4 初始化数据库 a、创建数据库 b、执行数据库脚本文件，初始化数据库 5 部署系统 6 启动测试

2022-12-02

基于java的保险业务管理系统的设计与实现

基于java的保险业务管理系统的设计与实现 1. 源码 2. 数据库 3. 报告文档 4. 安装部署说明视频

2022-11-30

java程序设计超市积分管理系统源码和报告

java程序设计超市积分管理系统源码和报告 1. 源码 2. 报告 3. 设计思路 4. 安装部署说明

2022-11-30

100套BI大屏大数据可视化看板原型设计方案

2022-11-30

机器学习特征选择方法综述

2022-11-30

Ganglia监控安装手册

1. 环境规划 2. 基础环境准备 3. Ganglia监控安装 4. 测试与应用

2022-11-30

Linux时间同步方式和操作方式

#设置ntp日志的path statsdir /var/log/ntp/ #设置ntp日志文件 logfile /var/log/ntp/ntp.log

2022-11-30

SMO算法学习最好的资料

SMO算法由Microsoft Research的John C. Platt在1998年提出，并成为最快的二次规划优化算法，特别针对线性SVM和数据稀疏时性能更优。关于SMO最好的资料就是他本人写的《Sequential Minimal Optimization A Fast Algorithm for Training Support Vector Machines》了。

2022-11-30

R语言金融量化-上证指数某股票的模型分析收益率

1. 金融量化-上证指数某股票的模型分析收益率 2. R语言版本

2022-11-30

上证指数R语言统计分析

2022-11-30

R语言版本的词频统计wordcount

R语言版本的词频统计

2022-11-30

R语言版本的PM2.5分析AQI报告和代码

2022-11-30

利用机器学习预测2022年的世界杯冠军

1. 资源是一个完整的2022年世界杯预测的代码和数据集 2. 使用docker部署可视化训练系统 3. python 代码 4. 三步就可以完成模型训练和预测 5. readme包括完整的执行步骤说明

2022-11-30

Hbase优化-参数优化

本文主要是从HBase应用程序设计与开发的角度，总结几种常用的性能优化方法。 1. 表的设计 2. 写表操作 3. 读表操作 4. 数据计算

2022-11-28

HBase优化-系统架构

HBase性能调，从架构方面的调优。

2022-11-28

企业级大数据平台CDH详细搭建过程

1. CDH架构及安装 2. Hadoop安装 3. Hive安装 4. Hbase安装 5. Spark安装 6. Kafka安装 7. 其他安装测试

2022-11-28

python工程师面试题汇总

内容包括： 1. python基础知识面试 2. python高级知识 3. 设计模式 4. 常考算法

2022-11-26

精通 Java 必备的 100 道面试题

2022-03-13

Linux运维必备工作常用shell脚本.pdf

自动化解放你的双手。

2021-12-12

Mysql完整的优化知识点.xmind

Mysql完整的优化知识点思维导图。

2021-09-19

中文自然语言处理中文分词训练语料

本次提供的中文汉语语料syj_trainCorpus_utf8.txt全网免费，转载需要注明出处，语料是作者通过爬取的短文本和网络上的预料处理、合并生成的。整个语料大小264M，包含1116903条数据，数据用空格隔开，可以用来训练分词模型。

2018-07-02

阿萨姆-机器学习实践_PPT

阿萨姆-机器学习实践_PPT，完整的介绍机器学习流程。实际问题抽象化数据与特征工程模型选择与评估模型调试与提升机器学习101

2018-03-21

TensorFlow数据读取

TensorFlow数据读取。

2017-08-17

Google Wide&&Deep Model 的keras实现

2017-07-08

提问的艺术-让 ChatGPT 导出高质量答案.pdf

提问的艺术——让 ChatGPT 导出高质量答案.pdf 在 ChatGPT 中，为了获得最佳的文字产出，正确提示的方法就成了重点。有了提示（Prompting）这份藏宝图，我们可以化身宝藏猎人，在语言模型这个宝藏迷宫里，开启一个个宝箱——输出的语料文本具备相关性、准确度、高质量。了解 ChatGPT 的功能、限制，至关重要。该模型能够生成类人语料文本，如果缺乏合适的引导，我们有可能始终无法产生理想的输出。此乃提示工程的用武之地，假设提供的指令清晰、具体，我们可以指导模型的输出，确保内容相关。提示公式（prompt formular）——提示的特定格式，一般包含 3 个主要元素：任务（task）：一份清晰简洁的陈述，提示要求模型生成的内容。指令（instructions）：在生成文本时，模型应该遵循什么。角色（role）：在生成文本时，模型应该扮演什么。

2023-04-29

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

JAVA码头船只出行及配套货柜码放管理系统的设计与实现

基于Java的银行排号系统的设计与实现

基于java的保险业务管理系统的设计与实现

java程序设计超市积分管理系统源码和报告

100套BI大屏大数据可视化看板原型设计方案

机器学习特征选择方法综述

Ganglia监控安装手册

Linux时间同步方式和操作方式

SMO算法学习最好的资料

R语言金融量化-上证指数某股票的模型分析收益率

上证指数R语言统计分析

R语言版本的词频统计wordcount

R语言版本的PM2.5分析AQI报告和代码

利用机器学习预测2022年的世界杯冠军

Hbase优化-参数优化

HBase优化-系统架构

企业级大数据平台CDH详细搭建过程

python工程师面试题汇总

精通 Java 必备的 100 道面试题

Linux运维必备工作常用shell脚本.pdf

Mysql完整的优化知识点.xmind

中文自然语言处理中文分词训练语料

阿萨姆-机器学习实践_PPT

TensorFlow数据读取

Google Wide&amp;&amp;Deep Model 的keras实现

提问的艺术-让 ChatGPT 导出高质量答案.pdf

产品经理Axure必备-自制中继器下拉选择框组件

JAVAWEB校园二手平台项目.rar

JAVA网络考试系统的设计与实现.rar

JAVA健康管理系统

JAVA医院管理住院系统的研究与实现

基于JAVA的医院在线挂号

JAVA银行柜员业务绩效考核系统的设计与实现

JAVA酒店管理系统的设计与实现

空空如也

Google Wide&&Deep Model 的keras实现