YZXnuaa-CSDN博客

原创【Python】PIL模块

Python自建库，在爬虫等基础应用中更加简单好记，做整理以备自查。目录Image模块open类、Save类、format类、Mode类、convert类、Size类、Info类、new类、Copy类、Crop类、Paste类、Filter类、Blend类、Split类、Composite类、Eval类、Merge类、Draft类、Getbands类、Getbbox类、Getda...

2019-06-19 03:48:24 669

原创【Python】爬虫汇总

主要流程：获取url下载网页从网页中找寻自己需要的保存（解析+输出）主要概念URL：分大小写统一资源定位符，对可以从互联网上得到的资源的位置和访问方法的一种简洁的表示，是互联网上标准资源的地址。互联网上的每个文件都有一个唯一的URL，它包含的信息指出文件的位置以及浏览器应该怎么处理它。基本URL包含模式/协议、服务器名称/IP地址、路径和文件名模式/协议（sch...

2019-06-06 02:08:54 260

原创常见Python数据分析函数算法汇总

一、函数1.Numpy 官网生成数列 arange（min，max，间隔）随机数random混合生成数组meshgrid（数列1，数列2）多维数组换为一维数组 ravel()、flatten()、squeeze()索引排列算数函数切片筛选索引 = np.where(条件)、抽取条件元素 data1 = numpy.extract(条件，data)2.Ma...

2019-04-16 17:47:50 979

原创 pandas问题记录

1、pandas.read_csv()函数，读取文件数据时，由于分隔符为'::'，弹出如下警告警告：ParserWarning: Falling back to the 'python' engine because the 'c' engine does not support regex separators (separators > 1 char and diffe...

2018-09-18 01:41:38 416

这又是一个 Awesome XXX 系列的资源整理，由 vinta 发起和维护。内容包括：Web框架、网络爬虫、网络内容提取、模板引擎、数据库、数据可视化、图片处理、文本处理、自然语言处理、机器学习、日志、代码分析等。伯乐在线已在 GitHub 上发起「Python 资源大全中文版」的整理。欢迎扩散、欢迎加入。GitHub - jobbole/awesome-python-cn: Python资源...

2018-06-21 14:54:45 542

转载见过的最好的PCA解析

1.概述 PCA：主成分分析，一种常用的数据分析方法，不管是在机器学习还是数据挖掘中都会用到。PCA主要通过求数据集的协方差矩阵最大的特征值对应的特征向量，由此找到数据方差最大的几个方向，对数据达到降维的效果，将一个n维的向量降低到d维，其中d<n。本文主要从方差最大化理论解释PCA的实现过程。首先来看这样几个实际问题，比如那到一个汽车的样本，里面既有千米每小时度量...

2018-06-20 15:00:51 1846

转载 Dictionary Learning(字典学习、稀疏表示以及其他)

第一部分字典学习以及稀疏表示的概要字典学习（Dictionary Learning）和稀疏表示（Sparse Representation）在学术界的正式称谓应该是稀疏字典学习（Sparse Dictionary Learning）。该算法理论包含两个阶段：字典构建阶段（Dictionary Generate）和利用字典（稀疏的）表示样本阶段（Sparse coding with a preco...

2018-04-23 18:12:54 5315 2

转载随机采样方法整理与讲解（MCMC、Gibbs Sampling等）

本文是对参考资料中多篇关于sampling的内容进行总结+搬运，方便以后自己翻阅。其实参考资料中的资料写的比我好，大家可以看一下！好东西多分享！PRML的第11章也是sampling，有时间后面写到PRML的笔记中去：) 背景随机模拟也可以叫做蒙特卡罗模拟(Monte Carlo Simulation)。这个方法的发展始于20世纪40年代，和原子弹制造的曼哈顿计划...

2018-03-21 14:36:22 651

原创【Python】小案例

6. 斐波那契数列！！# !/usr/bin/python# -*- coding: UTF-8 -*-def fib(n): a, b = 1, 1 for i in range(n - 1): a, b = b, a + b return a# 输出了第10个斐波那契数列print(fib(10))5513.排序

2018-02-06 16:25:52 1038

原创不能ping通网络的处理办法

打开控制面板：进入Windows防火墙设置：高级设置：入站规则：启用ICMP规则：出站规则（如果需要）：测试：

2024-04-10 23:25:47 377

原创把js里面的值显示到html上的办法

如果你使用的是现代前端框架（如 React, Vue, Angular），它们有自己的机制来更新 DOM 和显示数据。: 这个方法会向 HTML 文档写入内容，但通常不推荐使用，因为它会重写整个 HTML 页面。: 在现代浏览器中，你可以使用模板字面量来构造 HTML 字符串，然后将其插入到 DOM 中。: 这两个属性也可以用来修改元素的内容，但不会解析 HTML 标签。: 你可以创建新的 HTML 元素，并将其添加到 DOM 中。属性，可以将内容插入到指定的元素中。: 通过改变 HTML 元素的。

2023-11-08 20:37:57 1547

原创 [nifi] 数据管理分发工具

nifi 入门

2022-07-22 17:55:07 435 1

原创 Python 常用写法

1.时间import datetimenow=datetime.now()nowStr=now.strftime(now,"%Y%m%d%H%M%S")2.数组，加索引enumerate(arr)3.数组，去除空arr=[x for x in arr if x !=""]arr=filter(None, arr)4.去重复arr=list(set(arr))

2022-01-17 12:03:48 549

原创 [Shell] 常用写法

常识awk 'condition{move1;move2}' 文件名1 文件名2NR 行数，索引NF 列数，一般写在{}内部-F"dfd" 重新确认分隔符A~B 是否包含 - 也可以-gt 大于等于// 正则去重| awk '!a[$0]++'| sort -u | uniq大写字母[root@localhost ~]# test='ab'[root@localhost ~]# echo $testab[root@localhost ~]#

2021-07-09 10:04:34 306

原创 [JetBrain] 快捷键 @2021-07-08

最重要的快捷键 ctrl+shift+A:万能命令行 shift两次:查看资源文件 ctrl + q 查看数据类型新建工程第一步操作 module设置把空包分层去掉,compact empty middle package 设置当前的工程是utf-8,设置的Editor-->File Encodings-->全部改成utf-8, 注释1. ctrl+/:单行注释2. ctrl + shift + /: 部分注释光标操作 ctr

2021-07-08 09:47:19 165

原创 SQL 优化的经验

查询语句无论是使用哪种判断条件等于、小于、大于，WHERE左侧的条件查询字段不要使用函数或者表达式使用EXPLAIN命令优化你的 SELECT 查询，对于复杂、效率低的 sql 语句，我们通常是使用 explain sql 来分析这条 sql 语句，这样方便我们分析，进行优化。当你的 SELECT 查询语句只需要使用一条记录时，要使用LIMIT 1 不要直接使用SELECT *，而应该使用具体需要查询的表字段，SELECT * 使用的是全表扫描，type = all。为每一张表...

2021-07-05 15:55:28 160

原创 [Mysql] 创建函数 function

通过操作，先删除，再创建：Drop+ Createdelimiter $$DROP FUNCTION IF EXISTS `show_ngd` $$CREATE FUNCTION `show_ngd`(MEMEID varchar(50)) RETURNS varchar(300)BEGIN DECLARE str varchar(50) DEFAULT ''; RETURN (SELECT CONCAT(MATCHED_FNAME,MATCHED_LNAME, GENDER,DOB

2021-07-01 09:37:19 282

转载 scala中跳出循环的3种方法

1、scala中跳出循环语句的3种方法　　1)基于Boolean类型的控制变量// while循环var flag = truevar result = 0var n = 0while(flag) { res += n n += 1 println("res = "+ res) println("n = "+ n) if (n == 10) { flag = false }}// for循环var flag = truevar res =

2021-01-05 09:19:21 2163

原创 2020-12-21

$$Shell本身的PID（ProcessID）$!Shell最后运行的后台Process的PID$?最后运行的命令的结束代码（返回值）$-使用Set命令设定的Flag一览$*所有参数列表。如"$*"用「"」括起来的情况、以"$1 $2 … $n"的形式输出所有参数。$@所有参数列表。如"$@"用「"」括起来的情况、以"$1" "$2" … "$n" 的形式输出所有参数。$#添加到Shell的参数个数$0Shell本身的文件名$1～$n添加到Shell的各参数值。$1是第1

2020-12-21 11:19:13 131

转载 2020-11-18

太关注于所得的结果是否正确，而忽略了不同的实现方法之间可能存在的性能差异，这种性能差异在大型的或是复杂的数据库环境中（如联机事务处理OLTP或决策支持系统DSS）中表现得尤为明显。笔者在工作实践中发现，不良的SQL往往来自于：不恰当的索引设计不充份的连接条件不可优化的where子句测试环境主机：HP LH II----主频：330MHZ----内存：128兆----操作系统：Operserver5.0.4----数据库：...

2020-11-18 22:16:36 177

转载 SQL 索引 index

建立索引的原则1) 定义主键的数据列一定要建立索引。 2) 定义有外键的数据列一定要建立索引。 3) 对于经常查询的数据列最好建立索引。 4) 对于需要在指定范围内的快速或频繁查询的数据列; 5) 经常用在WHERE子句中的数据列。 6) 经常出现在关键字order by、group by、distinct后面的字段，建立索引。如果建立的是复合索引，索引的字段顺序要和这些关键字后面的字段顺序一致，否则索引不会被使用。 7) 对于那些查询中很少涉及的列，重复值比较多的列不要建立索引。 8)

2020-11-18 21:40:49 1398

原创 Pandas 优秀文章

Fast, Flexible, Easy and Intuitive: How to Speed Up Your Pandas Projectshttps://realpython.com/fast-flexible-pandas/

2020-11-18 19:55:49 145

转载 Pandas 面试

迭代器使用itertuples() 和iterrows() 循环实际上可以通过pandas引入itertuples和iterrows方法可以使效率更快。这些都是一次产生一行的生成器方法，类似scrapy中使用的yield用法。.itertuples为每一行产生一个namedtuple，并且行的索引值作为元组的第一个元素。nametuple是Python的collections模块中的一种数据结构，其行为类似于Python元组，但具有可通过属性查找访问的字段。.iterrows为DataFr...

2020-11-18 19:33:31 985

原创【Power BI】【Power pivot】【DAX】练习题2

在 2008 年和 2009 年都购买过手机类别产品的客户列表：EVALUATECALCULATETABLE ( VALUES ( Customer[Customer Code] ), INTERSECT ( CALCULATETABLE ( SUMMARIZE ( Sales, Customer[CustomerKey], Product[P...

2020-10-19 23:56:29 1453 1

原创【Power BI】【Power pivot】【DAC】练习题

数据代码源头为微软官方教程：contoso.xlsb题目：两件组合产品一起卖，如何分别表示他们各自的属性呢？分析：典型的笛卡尔积，但是不能自己积自己，为了避免完全限定名称产生重复，必须提前重命名该列。例如，以下查询返回产品库存类型与其自身的所有组合：EVALUATECROSSJOIN ( VALUES ( Product[Stock Type] ), SELECTCOLUMNS ( VALUES ( Product[Stock Type] ),

2020-10-19 18:01:06 1355

原创 beautifulsoup4 bs4 find_all & find 函数解析

假定soup是我们下载下来的网页的对象了soup = BeautifulSoup(a, "html.parser")# 第一种，直接将属性名作为参数名，但是有些属性不行，比如像a-b这样的属性soup.find_all('p', id = 'p1') # 一般情况soup.find_all('p', class_='p3') # class是保留字比较特殊，需要后面加一个_# ...

2019-07-28 20:00:16 6379 1

原创上传git

什么是git？git是一个开源的分布式版本控制系统，可以有效、高速地处理从很小到非常大的项目版本管理。git是一种工具，它能更好的让我们管理代码。很多时候如果我们需要保持本地代码和github代码版本一致，那么我们就会用到git这个工具。git工具不仅可以让我们克隆别人的或者自己的远程代码，还可以实现本次存储远程仓库。下面小编给大家讲讲如何使用git把本地代码上传（更新）到github上第一步...

2019-07-22 17:27:53 193

原创爬虫解析器

将整个网页解析成一个DOM树常用库BS

2019-06-19 00:36:36 301

原创【Python】bs4库

from bs4 import BeautifulSoupimport rehtml_doc = """<html><head><title>The Dormouse's story</title></head><body><p class="title"><b>The...

2019-06-15 15:06:03 694

原创 No module named 'cookielib'或No module named 'urllib2'或raw_input

1.ModuleNotFoundError: No module named 'cookielib'Python3中，importcookielib改成 importhttp.cookiejar,然后方法里cookielib也改成http.cookiejar。2.ModuleNotFoundError: No module named 'urllib2'...

2019-06-12 23:50:24 1076

原创【Python】常用字符串处理

第一步，打开eclipse开发工具，新建一个py文件；定义一个变量a1，赋值为字符串，然后调用endswith方法，判断问号是不是这个字符串结尾，如下图所示：第二步，修改第一步的代码，判断name字符串是不是a1的结尾，返回结果为False，说明不是，如下图所示：第三步，再次修改变量和变量值，判断变量a2是否以问号开头；返回值为False，说明不是以问号结尾...

2019-06-11 21:52:17 199

原创【python】 os库——查看、修改文件属性

In [132]:import os# 查看文件属性In [133]: os.stat('package-lock.json')Out[133]: os.stat_result(st_mode=33206, st_ino=7036874417947173, st_dev=651824810, st_nlink=1, st_uid=0, st_gid=0, st_size=304, st_...

2019-06-11 21:50:49 1966

原创【Python】os库——批处理

注：字符串常见函数1.提取目录：在批处理中时常会用到文件夹的相互转换-------主要是通过os模块实现path=os.getcwd() #path就是当前的工作目录print(path) # '/ZC/Download/data'2.更改当前目录os.chdir( ‘ZC/Download/data’)#将工作路径改为了‘ZC/Download/data’3...

2019-06-11 19:19:41 514

原创特征脸——PCA应用

一、特征脸特征脸EigenFace从思想上其实挺简单。就相当于把人脸从像素空间变换到另一个空间，在另一个空间中做相似性的计算。这么说，其实图像识别的基本思想都是一样的，首先选择一个合适的子空间，将所有的图像变换到这个子空间上，然后再在这个子空间上衡量相似性或者进行分类学习。那为什么要变换到另一个空间呢？当然是为了更好的做识别或者分类了。那为什么变换到一个空间就好识别或者分类了呢？...

2019-06-01 01:34:31 683

原创【数学基础】线性代数以及符号编总

1基本概念和符号线性代数可以对一组线性方程进行简洁地表示和运算。例如，对于这个方程组:这里有两个方程和两个变量，如果你学过高中代数的话，你肯定知道，可以为x1 和x2找到一组唯一的解 (除非方程可以进一步简化，例如，如果第二个方程只是第一个方程的倍数形式。但是显然上面的例子不可简化，是有唯一解的)。在矩阵表达中，我们可以简洁的写作:其中：很快我们将会看到，咱们把方程表示...

2019-05-24 20:36:01 42944 3

转载加速神经网络训练 (机器学习)

包括以下几种模式:Stochastic Gradient Descent (SGD) Momentum AdaGrad RMSProp Adam越复杂的神经网络 , 越多的数据 , 我们需要在训练神经网络的过程上花费的时间也就越多. 原因很简单, 就是因为计算量太大了. 可是往往有时候为了解决复杂的问题, 复杂的结构和大数据又是不能避免的, 所以我们需要寻找一些方法, 让神经...

2019-05-20 20:13:00 272

原创【Pandas】DataFrame 速查

基本操作>1.查看前5个值和后三个值>df2.head()>df2.tail(3)>2.查看列名，值，以及索引>df2.columns>df2.values>df2.index>3.查看统计数据>df2.describe()>4.转置操作>df2.T>5.通过标签查询>df2['ag...

2019-05-20 01:00:22 339

原创信息熵常见定义

信息论（Information Theory）是概率论与数理统计的一个分枝。用于信息处理、信息熵、通信系统、数据传输、率失真理论、密码学、信噪比、数据压缩和相关课题。本文主要罗列一些基于熵的概念及其意义，注意本文罗列的所有loglog都是以 2 为底的。信息熵在物理界中熵是描述事物无序性的参数，熵越大则越混乱。类似的在信息论中熵表示随机变量的不确定程度，给定随机变量 X ，其取值x1...

2019-05-14 21:57:04 2041

原创 KKT条件

对于含有不等式约束的优化问题，如何求取最优值呢？常用的方法是KKT条件，同样地，把所有的不等式约束、等式约束和目标函数全部写为一个式子L(a, b, x)= f(x) + a*g(x)+b*h(x)，KKT条件是说最优值必须满足以下条件：1. L(a, b, x)对x求导为零；2. h(x) =0;3. a*g(x) = 0;求取这三个等式之后就能得到候选最优值。其中第三个式子非常...

2019-05-06 01:22:18 462

转载 SMO算法

SMO算法由Microsoft Research的John C. Platt在1998年提出，并成为最快的二次规划优化算法，特别针对线性SVM和数据稀疏时性能更优。关于SMO最好的资料就是他本人写的《Sequential Minimal Optimization A Fast Algorithm for Training Support Vector Machines》了。我拜读了一下，下面先...

2019-05-05 23:35:49 3038

空空如也

空空如也