自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(19)
  • 收藏
  • 关注

原创 大数定理与中心极限定理

一、大数定理在概率论中,大数定理是由概率的统计定义“频率收敛于概率”引申而来的。【定理1】设 X1,X2,X3,⋯ ,Xn,⋯X_1, X_2, X_3, \cdots, X_n, \cdotsX1​,X2​,X3​,⋯,Xn​,⋯ 是独立同分布的随机变量,记它们的公共均值为 aaa,又设它们的方差存在并记为 σ2\sigma^2σ2,则对任意给定的 ε&...

2019-06-17 09:43:33 1077

原创 爬虫实例(三)——股票数据定向爬虫

功能描述目标:获取上交所和深交所所有股票的名称和交易信息 输出:保存到文件中 技术路线:requests‐bs4‐re候选数据网站的选择选取原则:股票信息静态存在于HTML页面中,非js代码生成 没有Robots协议限制 选取方法:浏览器F12,源代码查看等 选取心态:不要纠结于某个网站,多找信息源尝试具体选取过程请看课程视频:北北京理工大学公开课《Python网络爬虫与信息提取》数据网站

2017-09-09 11:03:46 4846 3

原创 爬虫实例(二)——中国大学排名爬虫

本文是官途爬取 2016 年中国大学排名的,要爬取的网址: http://www.zuihaodaxue.cn/zuihaodaxuepaiming2016.html假如我们要爬取的信息是前 20 名大学的大学名称、排名及得分,查看源代码,如下图,可以发现排名的全部相关信息在标签 <tbody><tbody> 下的 <tr><tr> 中,而具体的名称、排名、得分等信息则在标签 <td><td> 中

2017-09-07 16:55:34 4229 2

原创 信息标记与提取方法

一、信息标记二、信息标记的三种形式信息标记的形式有:XML, JSON, YAML1) XML:2) JSON:3) YAML:三种信息标记形式的比较四、信息提取的一般方法实例:提取 HTML 中所有 URL 链接。(HTML 文本见代码) 思路:1) 搜索到所有 a 标签 2) 解析 a 标签格式,提取属性 href 后的链接内容代码:from bs4 import Bea

2017-08-27 20:23:54 587

原创 python系列之re模块(正则表达式)

一、正则表达式正则表达式的优势:简洁两个例子:正则表达式是用来简洁表达一组字符串的表达式; 正则表达式是一种通用的字符串表达框架; 正则表达式是一种针对字符串表达“简洁”和“特征”思想的工具; 正则表达式可以用来判断某字符串的特征归属。正则表达式的应用:二、正则表达式的语法正则表达式语法由字符和操作符构成。在下面的经典实例中,“正整数形式的字符串”开头可能是 0,觉得开头不能为 0,不过它应该

2017-08-22 22:04:29 437

原创 Beautiful Soup 库入门

一、概念Beautiful Soup 是一个可以从 HTML 或 XML 文件中提取数据的 Python 库。Beautiful Soup 提供一些简单的、python 式的函数用来处理导航、搜索、修改分析树等功能。它是一个工具箱,通过解析文档为用户提供需要抓取的数据。Beautiful Soup 库官网二、Beautiful Soup库的安装Windows平台: “以管理员身份运行”cmd执行p

2017-08-19 18:48:49 487

原创 爬虫实例(一)

1.京东商品页面的爬取https://item.jd.com/2967929.html代码:import requestsurl = "https://item.jd.com/2967929.html"try: r = requests.get(url) r.raise_for_status() r.encodint = r.apparent_encoding p

2017-08-17 10:01:40 1032

原创 python系列之os模块学习

Python的标准库中的os模块提供了一个统一的操作系统接口函数,通过调用接口函数,可以让操作系统实现相应功能(文件、目录操作)。 这些接口函数通常是平台指定的,os 模块能在不同操作系统平台中的特定函数间自动切换,从而能实现跨平台操作。下面是os模块中的一些函数【未完待续】:1) os.getcwd(): 获得当前工作目录,即当前python脚本工作的目录路径。 (getcwd: get cu

2017-08-13 16:55:09 354

原创 神经网络之激励函数(Activation Function)

1.什么是激励函数?非线性化

2017-08-09 14:35:00 1296

原创 为什么是“深度”学习而不是宽度?

为什么是深度而不是宽度?先说说我个人的理解,如下图所示,圆圈表示神经元,有两种方式。第一种,只有一层神经层,有8个神经元;第二种方式,有两层神经层,分别有2个和4个神经元。相比之下,第一种更“宽”更“浅”,第二种更“窄”更“深”。对于每个输入,两种方式都可能产生8种结果(第一种:8*1;第二种:2*4),但是第二种方式的神经元总数更少。因此,在神经元数目相同的情况下,“深度”学习出现的情况

2017-08-07 21:49:08 6575 1

原创 python系列之numpy模块学习

1.nupmy是什么? numpy是python中用于科学计算的一个库。import numpy as np # 导入numpy并命名为npprint(np.version.version) # 输出numpy的版本# print(np.__version__) # 也可以这样输出版本结果如图: 2.创建数组(array)import numpy as

2017-08-05 10:46:42 5247

原创 爬虫系列之Requests库入门

一、Requests 库的 get() 方法1.requests.get()方法: 相关参数:get(url, params=None, **kwargs):url: 拟获取页面的url链接params: url中的额外参数,字典或字节流格式,可选**kwargs: 12个控制访问的参数函数源代码如下:def get(url, params=None, **kwargs): """S

2017-07-09 20:19:57 928

原创 贪心算法及相关题目(一)

一、贪心算法概念贪心算法通过做出一系列选择来求出问题的最优解,在每个决策点,它做出在当时看来最佳的选择。由此可见,贪心算法并不从整体最优考虑,它所作出的选择只是在某种意义上的局部最优选择,但是对许多问题它都所得到的解都是全局最优解。二、相关题目第一题:Sicily 1198. Substring题目及输入输出: 样例: 题意:给n个字符串,需要将他们拼接起来形成一个字典序最小的字符串 解决思路:

2017-04-02 10:26:42 726

原创 虚拟机

一、虚拟机的概念虚拟机(Virtual Machine)是指可以像真实机器一样运行程序的计算机的软件实现(它是一种特殊的软件),它可以在计算机平台和终端用户之间创建一种环境,而终端用户则是基于这个软件所创建的环境来操作软件。虚拟机的基本思想是单个计算机的硬件抽象为几个不同的执行部件,从而造成一种幻觉,仿佛每个独立的执行环境都在自己的计算机上运行一样。简言之,虚拟机是一种软件,能模拟一台虚拟的计算机,

2017-03-24 20:02:30 1259

原创 图像基础知识

一、(数字)图像的概念图像是人对视觉感知的物质再现,随着数字采集技术和信号处理理论的发展,越来越多的图像以数字形式存储。(本文讨论的是数字图像)数字图像是二维图像用有限数字数值像素的表示。通常,像素在计算机中保存为二维整数数组的光栅图像,这些值经常用压缩格式进行传输和储存。像素,又称画素,为图像显示的基本单位,译自英文“pixel”。每个这样的信息元素不是一个点或者一个方块,而是一个抽象的采样。每个

2017-03-17 20:54:33 1191

原创 Huffman coding —— 优先队列

以一道题引入: 题目给出的样例和提示: 总结下题意: 利用哈夫曼编码给各个字符编码,求出最小的总字节数,即每个字符的编码数乘以字符的权重(这里是指字符出现的次数),得到每个字符的字节数,再对所有字符的字节数求和。思路: 哈夫曼编码每次都是取权值最小的两个合并,因此每次都需要排序,这可以用到优先队列(priority_queue)。 提到哈夫曼编码,可能最先想到的最建一棵树,然后算出每个叶子

2017-03-13 17:43:05 599

原创 操作系统基础知识

一、操作系统的概念计算机系统可大致分为四个部分:硬件、操作系统、系统程序和应用程序、用户。操作系统OS(Operating System)是作为计算机硬件和计算机用户之间的中介的程序,是管理计算机硬件的软件。二、中断(Interrupt)事件的发生通常通过硬件或软件的中断来表示。硬件可以随时通过系统总线向CPU发出信号,以触发中断。软件通过特别执行操作如系统调用(system call)(也称监视器

2017-03-09 22:07:15 8638 1

原创 计算机基础知识

一、计算机的应用分类及特性桌面计算机:强调对单用户提供良好的性能,通常运行第三方软件,典型代表是个人计算机。服务器:面向大型用户,可执行单一复杂应用,也可处理大量的简单作业,如大型web服务器。服务器的制造技术和桌面计算机差不多,但能够提供更强的计算或I/O能力。 高端服务器称为超级计算机,一般由成千上百台处理器组成,内在为terabyte(即TB,2^40)级,外在为petabyte(10

2017-03-09 19:40:25 1370

原创 Sicily 1509.Rails——栈入栈出

一、题目: 输入输出: 二、分析过程:题目本质意思: 一组数1~N从小到大的顺序入栈,给出出栈的顺序,判断能否满足这种情况(即能否按这种情况出栈)解题思路: 本质上就是将数1~N按照所给的出栈顺序来出栈,如果出栈成功,说明满足要求,否则不满足要求具体步骤: 1.先将给出的出栈顺序存在一个数组out中 2.将数据1~N按从小到大的顺序输入到一个栈中,每栈入一个元素后,将栈顶元素与

2016-10-15 21:15:30 397

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除