- 博客(45)
- 收藏
- 关注
原创 selenium爬虫入门(3)
contentsframe/窗口 切换frame切换用WebDriver的switch_to切换窗口切换用WebDriver的switch_to切换窗口关闭选择框radio框checkbox框selecet 框select单选框select多选框from selenium.webdriver import Chromeoptions = webdriver.ChromeOptions()options.add_experimental_option('excludeSwitches', ['enabl
2021-12-16 14:54:44 591
原创 selenium爬虫入门(2)CSS Selector
contentsCSS selector根据 tag名、id、class 选择元素选择子元素和后代元素根据属性选择组选择根据次序选择兄弟关系选择验证 CSS SelectorCSS selectorHTML中经常要为某些元素指定显示效果,CSS就是浏览器用来选择元素,使其具有指定显示风格。只要CSS Selector的语法是正确的, Selenium就可以选择到该元素。通过CSS Selector选择单个元素的方法是driver.find_element(By.CSS_SELECTOR, CSS Se
2021-12-14 16:16:18 4498 1
原创 传参数之 argparse使用或创建类
contentsargparse模块用于编写用户友好的命令行接口。程序定义它需要的参数,argparse解析出那些参数。 同时,还会自动生成帮助和使用手册,并在用户给程序传入无效参数时报出错误信息。创建argparseimport argparseparser = argparse.ArgumentParser(description='写一点对这个函数参数的描述呀')这个描述和参数信息可通过保存代码的py文件查询python 文件名.py -h通过add_argument添加参数
2021-06-30 18:02:11 636
原创 co-lab 上传文件
contents上传到Googledrive直接上传到colab上传打包(重要)上传到Googledrive打开Google drive并登陆在空白处右键,可在drive中上传文件\文件夹打开colab在notebook界面可以看到按左边有个文件夹符号,点击看到当前目录下的内容colab的使用和jupyter notebook类似,并且linux中能用的命令,colab中都能用,但需要在命令前加感叹号。通过命令 ,将drive加载入目录,就可以通过路径调用drive中上传的文件了
2021-06-11 00:08:08 14003
原创 sql
contents数据库简介数据库简介数据库系统:数据库、数据库管理系统、应用开发工具数据库:储存数据的仓库数据库管理系统:用来定义数据管理和维护数据的软件,eg:MySQL,Oracle
2021-05-23 12:51:58 448
原创 Git和github
contents版本控制工具Git操作版本控制工具功能解释备注协同修改多人并行不悖的修改服务器端的同一个文件。最后一个提交的解决代码不同的冲突数据备份不仅保存目录和文件的当前状态,还能够保存每一个提交过的历史状态。版本管理在保存每一个版本的文件信息的时候要做到不保存重复数据,以节约存储空间,提高运行效率。SVN 采用的是增量式管理的方式,而 Git 采取了文件系统快照的方式。权限控制对团队中参与开发的人员进行权限控制;对团队外开发者贡献的代码进行审核
2021-05-23 01:34:08 529 1
原创 机器学习进阶(七)贝叶斯网络
contents朴素贝叶斯高斯朴素贝叶斯GaussianNB(连续)多项分布朴素贝叶斯MultinomialNB(离散)生成模型贝叶斯网络叶斯网络判定条件独立tail-to-tailhead-to-tailhead-to-head朴素贝叶斯朴素贝叶斯的假设:对于给定分类的条件下,特征独立——每个特征同等重要(特征均衡性),即P(xi∣y,x1,⋯ ,xi−1,xi+1,⋯ ,xn)=P(xi∣y)P\left(x_{i} \mid y, x_{1}, \cdots, x_{i-1}, x_{i+1}
2021-05-05 15:42:16 313
原创 机器学习进阶(六)EM算法
contents前提知识GMM高斯混合模型前提知识Jensen不等式θ1+θ2+,…,+θn=1,f(x)\theta_1+\theta_2+,\dots,+\theta_n=1,f(x)θ1+θ2+,…,+θn=1,f(x) 为凸函数,则有f(θ1x1+⋯+θnxn)≤θ1f(x1)+⋯+θnf(xn)f(\theta_1x_1+\dots+\theta_nx_n)\le\theta_1f(x_1)+\dots+\theta_nf(x_n)f(θ1x1+⋯+θnxn)≤θ1f(x
2021-05-04 17:33:38 181
翻译 深度学习初步
contents本博客目标线性神经元用keras.Sequential创建模型tensor数组layers激活函数Activation Function建立Sequential 模型损失函数优化方法搭建网络learning curvegetting more signal while reducing noise.本博客目标创建一个全连接神经网络应用神经元去解决回归和分类问题用随机梯度下降去训练神经元,并用dropout, batch normalization等方法提升性能。线性神经元单
2021-04-25 12:08:54 210
原创 机器学习进阶(五)聚类
contents聚类距离、相似度k-Means算法极大似然角度K-Means++的步骤mini batch k-means步骤Canopy算法步骤聚类的衡量指标均一性 Homogeneity和完整性 CompletenessV-measureRI(兰德系数)ARI(调整兰德系数)AMI轮廓系数聚类聚类就是对大量未知标注的数据集(无监督),按数据的内在相似性将数据集划分为多个类别,使类别内的数据相似度较大而类别间的数据相似度较小。可用于降维给定一个有N个对象的数据集,构造数据的k个簇,k≤n。条件
2021-04-11 15:18:10 610
原创 机器学习进阶(四)SVM(不完善)
contents支持向量机线性可分数据集的支持向量机间距超平面目标函数拉格朗日乘子法求解线性不可分数据集的支持向量机目标函数拉格朗日乘子法求解核函数支持向量机以二分类为例,yi∈{−1,1}y_i\in\{-1,1\}yi∈{−1,1},+1为正例,-1为负例线性可分数据集的支持向量机间距样本(xi,yi)(\bm{x_i},y_i)(xi,yi)到超平面f(x)=wTx+bf(x)=w^Tx+bf(x)=wTx+b的距离为(假设正例在正向,负例在负向),d=yi(wTxi+b)∣∣w∣∣
2021-03-10 18:49:01 147
原创 机器学习进阶(三)boost
contents提升算法提升概念:提升可以用于回归和分类问题,它每一步产生一个弱预测模型(如决策树),并加权累加到总模型中;如果每一步的弱预测模型生成都是依据损失函数的梯度方向,则称之为梯度提升(Gradientboosting)。理论:如果一个问题存在弱分类器,则可以通过提升的办法得到强分类器。损失函数:对于每个样本,经典定义为L(y,F(x⃗))=12(y−F(x⃗))2,或者L(y,F(x⃗))=∣y−F(x⃗)∣\quad L(y, F(\vec{x}))=\frac{1}{2}(y-F(
2021-03-05 15:53:36 648 1
原创 机器学习进阶(一)回归
contents线性回归梯度下降局部加权线性回归logistic回归Softmax回归线性回归目标函数J(θ)=12∑i=1n(hθ(x(i))−y(i))2=12(Xθ−y)T(Xθ−y)J(\theta)=\frac{1}{2}\sum_{i=1}^n(h_{\theta}(x^{(i)})-y^{(i)})^2=\frac{1}{2}(X\theta-y)^T(X\theta-y)J(θ)=21i=1∑n(hθ(x(i))−y(i))2=21(Xθ−y)T(Xθ−y)求解方法正规求
2021-02-24 22:14:38 153
原创 机器学习基础(二)
contentssklearn数据集sklearn数据数据集划分转化器与预估器转化器估计器模型选择与调优交叉验证网格搜索网格搜索API欠拟合和过拟合概念分类算法混淆矩阵召回率和精确率F1-score分类模型评估APIk近邻算法计算距离公式k-近邻算法API评价朴素贝叶斯贝叶斯公式朴素贝叶斯API拉普拉斯平滑评价决策树信息熵决策树的划分依据信息增益其他依据决策树API决策树的结构和本地保存评价随机森林集成学习单棵树的建立随机森林API评价回归算法损失函数回归性能评估回归评估API线性回归数组正规方程API梯度
2021-02-22 21:12:17 1853
原创 机器学习基础(一)
contents数据数据来源数据结构特征工程特征抽取sklearn.feature_extraction特征抽取API特征预处理缺失值处理归一化标准化特征降维(特征的数量)特征选择主成分分析数据数据来源企业日益积累的大量数据(互联网公司更为显著)政府掌握的各种数据科研机构的实验数据机器学习的数据读取一般用文件,如csv,而不是用数据库#mermaid-svg-PnNCUTPLiteqfdjA .label{font-family:'trebuchet ms', verdana, arial;f
2021-02-19 00:01:59 605
原创 matplotlib查漏补缺
contents常用参数常用图画多列的条形图层叠图有重点的饼图坐标为时间的图颜色和样式用面向对象的方式画子图生成多张图网格图例坐标轴坐标轴范围调整坐标轴刻度调整日期坐标轴调整添加新坐标画箭头注释纯文字注释tex公式编辑填充颜色 fill,fill_between画图形美化极坐标函数积分图散点条形图import numpy as npimport matplotlib.pyplot as pltimport matplotlib.dates as mdates#用于处理时间数据常用参数参数
2021-02-09 21:02:48 1093 1
原创 numpy查漏补缺
contentsnumpynumpy数组基本信息numpy创建数组创建指定行数和列数的数组np.arange()和np.linspace()numpy 的运算乘法返回索引求和axiscumsum,diff,nonzero,sort,transpose,clipnumpy 产生随机数根据索引找值按行拉直把横向数列变成纵向的numpy 的合并numpy 的分割等量分割不等量分割numpy 的copynumpynumpy数组基本信息数组的维数: array.ndim数组的shape:array.shape
2021-02-06 12:26:09 504
原创 pandas查漏补缺
contentsnumpynumpy数组基本信息numpy创建数组创建指定行数和列数的数组np.arange()和np.linspace()numpy 的运算乘法返回索引求和axiscumsum,diff,nonzero,sort,transpose,clipnumpy 产生随机数根据索引找数字按行拉直把横向数列变成纵向的numpy 的合并numpy 的分割等量分割不等量分割numpy 的copynumpynumpy数组基本信息数组的维数: array.ndim数组的shape:array.shap
2020-12-13 21:25:22 2167
原创 leetcode简单题1~50
contents1. 两数之和7. 整数反转1. 两数之和给定一个整数数组 nums 和一个目标值 target,请你在该数组中找出和为目标值的那 两个 整数,并返回他们的数组下标。yueyue’s solutionclass Solution: def twoSum(self, nums, target): n=len(nums) for i in range(n): for j in range(i+1,n):
2020-12-10 22:52:57 1958 3
原创 数据结构与算法Day6 树与树算法
contents树(tree)的概念树的术语树的种类树的存储与表示顺序存储链式存储常见的一些树的应用场景二叉树二叉树的性质(特性)二叉树的实现树节点实现树的创建二叉树的遍历广度优先遍历(层次遍历)深度优先遍历先序遍历树(tree)的概念树是一种抽象数据类型(ADT)或是实作这种抽象数据类型的数据结构,用来模拟具有树状结构性质的数据集合。它是由n(n>=1)n(n>=1)n(n>=1)个有限节点组成一个具有层次关系的集合。特点:每个节点有零个或多个子节点;没有父节点的节点称为根节
2020-12-04 16:04:02 181
原创 数据结构与算法Day5 搜索算法
contents搜索二分法查找具体操作算法实现时间复杂度搜索搜索是在一个项目集合中找到一个特定项目的算法过程。搜索的几种常见方法:顺序查找、二分法查找、二叉树查找、哈希查找。二分法查找二分查找又称折半查找。优点缺点适用对象比较次数少,查找速度快,平均性能好要求待查表为有序表,且插入删除困难不经常变动而查找频繁的有序列表具体操作假设表中元素是按升序排列,将表中间位置记录的关键字与查找关键字比较。若两者相等,则查找成功;否则利用中间位置将表分成前、后两个子表:若中
2020-12-03 21:06:32 112
原创 数据结构与算法Day5 排序算法
contents排序算法(Sorting algorithm)冒泡排序(Bubble Sort)算法原理:算法实现优化实现时间复杂度选择排序(Selection sort)算法原理算法实现时间复杂度插入排序算法原理算法实现时间复杂度排序算法(Sorting algorithm)一种能将一串数据依照特定顺序进行排列的一种算法。稳定性:稳定排序算法会让原本有相等键值的纪录维持相对次序。即,当有两个相等键值的纪录R和S,且在原本的列表中R出现在S之前,在排序过的列表中R也将会是在S之前。冒泡排序(Bubb
2020-12-01 15:35:22 156
原创 数据结构与算法Day4栈和队列
栈和队列总概双端队列中的。名称栈(stack),又称为堆栈队列双端队列操作可存入、访问、删除数据元素可存入、删除数据元素可存入、删除数据元素特点只能允许在容器的一端(称为栈顶端指标,top)进行加入数据(push)和输出数据(pop,出栈)只允许在一端(队尾)进行插入操作, 而在**另一端(队头)**进行删除操作的线性表元素可以从两端弹出,其限定插入和删除操作在表的两端进行访问顺序没有位置概念,保证任何时候可以访问、删除的元素都是此前最后存入的那个元素
2020-11-30 11:20:16 85
原创 数据结构与算法Day3链表(3)
contents链表单向循环链表节点实现单链表的操作链表单向循环链表单链表的一个变形是单向循环链表,链表中最后一个节点的next域不再为None,而是指向链表的头节点。节点实现比单向列表多一个self.pre的链接class Node(): def __init__(self,item): self.elem=item self.next=None单链表的操作操作表示is_empty()链表是否为空length()链表
2020-11-28 01:31:40 149
原创 数据结构与算法Day3链表(2)
链表双向链表“双向链表”()或“双面链表”):每个节点有两个链接:一个指向前一个节点,当此节点为头节点时,指向空值;而另一个指向下一个节点,当此节点为尾节点时,指向空值。节点实现比单向列表多一个self.pre的链接class Node(): def __init__(self,item): self.pre=None self.elem=item self.next=None单链表的操作操作表示is_empty(
2020-11-25 21:03:39 96
原创 数据结构与算法Day3链表(1)
contents链表单向链表链表顺序表的构建需要预先知道数据大小来申请连续的存储空间,在进行扩充时又需要进行数据的搬迁,使用起来不是很灵活。链表结构可以充分利用计算机内存空间,实现灵活的内存动态管理。链表(Linked list)是一种常见的基础数据结构,是一种线性表,但是不像顺序表一样连续存储数据,而是在每一个节点(数据存储单元)里存放下一个节点的位置信息(即地址)。单向链表单向链表也叫单链表,是链表中最简单的一种形式,它的每个节点包含两个域,一个信息域(元素域)和一个链接域。表元素域
2020-11-20 18:13:24 148
原创 数据结构与算法Day2顺序表
contents顺序表数据类型类型决定在计算机内存中占多少个储存单元类型决定计算机拿到二进制数据的时候,如何处理顺序表的基本形式顺序表数据类型类型决定在计算机内存中占多少个储存单元计算机的内存是一个连续的存储空间,把一个字节作为一个基本的存储单元,一个字节八位整体有一个地址标识,通过地址标识能一下提取八位。如一个整型数据1,先转换成二进制一个字节八位即为00000001,在32位操作系统中整型要占4个字节,如下图所示。类型决定计算机拿到二进制数据的时候,如何处理如上图所示,可以将这四个字节当做
2020-11-17 15:51:04 379
原创 数据结构与算法Day1之算法和数据结构引入
contents算法的概念算法的五大特性算法效率衡量时间复杂度=基本运算数量总和“大O记法”时间复杂度时间复杂度的基本计算规则Python内置类型性能分析list和dict内置操作的时间复杂度list的内置操作的时间复杂度dict的内置操作的时间复杂度数据结构数据抽象数据类型(Abstract Data Type)算法的概念算法法是独立存在的一种解决问题的方法和思想。计算机程序本质上是一个算法来告诉计算机确切的步骤来执行一个指定的任务。算法的五大特性输入: 算法具有0个或多个输入输出: 算法至少
2020-11-15 17:08:58 430
原创 python基础之D14 模块
contents模块和包标准库模块模块化编程的流程设计 API,进行功能描述。模块的创建和测试代码模块的导入import 语句导入语法格式类别模块和包便于将一个任务分解成多个模块,实现团队协同开发,完成大规模程序实现代码复用。一个模块实现后,可以被反复调用。可维护性增强。标准库模块模块分为标准库模块和用户自定义模块。Python 标准库提供了操作系统功能、网络通信、文本处理等,random(随机数)、 math(数学运算)、 time(时间处理)、 file(文件处理)、os(和操作系
2020-11-14 16:13:38 623
原创 python基础之Day13 文件操作(2)
contentsCSV 文件的操作csv 文件读取csv 文件写入OS和os.path模块调用操作系统命令直接调用可执行文件文件和目录操作os.path 模块walk()递归CSV 文件的操作csv(Comma Separated Values)是逗号分隔符文本格式,常用于数据交换、Excel文件和数据库数据的导入和导出特点csvexcel值类型所有值都是字符串各种类型字体颜色等样式不能指定可指定单元格的宽高不能指定可指定合并单元格不可可多
2020-11-13 21:53:36 347
原创 python基础之Day12 文件操作(1)
contents文本文件和二进制文件文件操作相关模块概述创建文件对象 open()语法格式文本文件的写入一个完整的程序一般都包括数据的存储和读取; 但python 解释器执行完数据就消失了。实际开发中,经常需要从外部存储介质(硬盘、光盘、U 盘等)读取数据,或者将程序产生的数据存储到文件中,实现“持久化”保存。很多软件系统是将数据存储的数据库中; 数据库实际也是基于文件形式存储的。文本文件和二进制文件数据组织形式储存打开软件文本文件普通“字符文本”,默认unicode字符集(
2020-11-03 21:19:17 526
原创 python基础之Day11 异常调试
contents异常的本质异常处理try...一个except结构语法结构示例try... 多个except 结构语法结构try...except...else结构语法结构try...except...finally结构return语句语法结构常见异常的解决常见异常汇总with上下文管理语法结异常的本质如果没有异常机制,会发生:逻辑代码和错误处理代码放一起!程序员本身需要考虑的例外情况较复杂,对程序员本身要求较高!异常:程序运行过程中出现的非正常现象,如除数为零等。异常处理:程序在出现问题时
2020-10-31 23:40:12 242
原创 python基础之Day10 python是面向对象的语言(3)
contents特殊方法运算符重载特殊属性对象的浅拷贝和深拷贝组合设计模式工厂模式单例模式特殊方法python 的运算符实际上是通过调用对象的特殊方法实现的运算符方法说明运算符+__add__加法运算符-__sub__减法<,<=,==__lt__,__le__,__eq__比较运算符>,>=,!=__gt__,__ge__,__ne__比较运算符,^,&__or__,__xor__,__and__或、异
2020-10-29 10:21:33 162
原创 python基础之Day9 python是面向对象的语言(2)
contents面向对象三大特征继承面向对象三大特征ython 是面向对象的语言,也支持面向对象编程的三大特性:继承、封装(隐藏)、多态。封装(隐藏)\quad隐藏对象的属性和实现细节,只对外提供必要的方法。相当于将“细节封装起来”,只 对外暴露“相关调用方法”。\quad 通过前面学习的“私有属性、私有方法”的方式,实现“封装”。Python 追求简洁的语法,没有严格的语法级别的“访问控制符”,更多的是依靠程序员自觉实现。继承\quad继承可以让子类具有父类的特性,提高了代码的
2020-10-28 19:49:20 165
原创 python基础之Day8 python是面向对象的语言(1)
这里写目录标题面向对象和面向过程区别类的定义语法结构__init__构造方法Python 支持面向过程、面向对象、函数式编程等多种编程范式。将不同类型的数据、方法(即函数)放到一起,就是对象。一个 Python 对象包含如下部分:id(identity 识别码)type(对象类型)value(对象的值)(1) 属性(attribute)(2) 方法(method)面向对象和面向过程区别思维关注程序规模示例面向过程(Procedure Oriented)思维“
2020-09-13 19:23:16 238
原创 python基础之Day7 函数的用法和底层分析
contents函数的用法函数的定义和调用语法格式函数是可重用的程序代码块。通常一个函数完成一个功能。Python 中函数分为如下几类:内置函数标准库函数第三方库函数用户自定义函数函数的用法函数的定义和调用语法格式def 函数名 ([参数列表]) :\qquad‘’‘文档字符串’’’\qquad函数体/若干语句文档字符串是对函数的说明,相当于注释.note:我们使用 def 来定义函数,然后就是一个空格和函数名称Python 执行 def 时,会创建一个函数对象(py
2020-08-25 20:18:42 731
原创 python基础之Day6 推导式创建序列
contents推导式列表推导式语法结构字典推导式语法结构集合推导式语法结构生成器推导式(生成元组)语法结构python循环的应用推导式推导式是从一个或者多个迭代器快速创建序列的一种方法。它可以将循环和条件判断结合,从而避免冗长的代码,是推导式是典型的 Python 风格。列表推导式语法结构[表达式 for item in 可迭代对象 ]或者:{表达式 for item in 可迭代对象 if 条件判断}cells = [(row,col) for row in range(1,3) for
2020-08-24 22:35:13 229
原创 python基础之Day5 控制语句值
contents选择结构单分支结构语法格式双分支结构语法格式三元条件运算符多分支结构语法格式选择结构的嵌套语法形式python实例循环结构while 循环语法格式选择结构选择结构有多种形式,分为:单分支、双分支、多分支。单分支结构语法格式if 条件表达式:\qquad语句/语句块条件表达式的值为 False 的情况如下:False(区别字符串“False”是非空字符串)0,0.0空值 None、空序列对象(空列表、空元祖、空集合、空字典、空字符串)、空 range 对象、空迭代对象
2020-08-24 14:10:45 555
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人