python
一笑照夜
一片柳叶吹成雪
展开
-
【爬虫、贝叶斯、SVM、LDA一条龙服务】从数据收集到文本分类:从零开始你自己的数据挖掘工程
0. 前言对于每个学习数据挖掘的人来说,总会在某个时刻想要自己从头开始一项数据挖掘工程。这不同于用一用搜狗的新闻资料库,或者是kaggle、天池等竞赛的资料库,要自己从头开始收集数据,使用爬虫收集,然后去重,数据清理等等。。。使用已有的数据库,好处是省略了自己收集的过程,遇到各种奇奇怪怪的问题,网上也有解答,更重要的是,我们心里有底,知道如果过程不出问题,最后总是能得到一个不错的结果。但是自己...原创 2020-03-02 16:02:20 · 1174 阅读 · 0 评论 -
【python】卷积神经网络:前向传播与反向传播的原理 & 仅使用numpy的CNN实现
一、概述之前我们已经了解了普通的神经网络——使用前向传播和反向传播来进行训练。以MNIST数据集为例,在该网址中已经进行了推导,并得到了超过96%的准确率。但是由于其自身的缺陷,想要更进一步提高准确率很困难。这是因为虽然三层的神经网络可以逼近任意的函数,但是我们的输入不能表征样本的全部特征——因此无法在“任意函数”中找到最好的,只能在“任意函数”中找到最适合输入的。最适合输入的不一定是最好的,...原创 2019-11-19 01:02:49 · 2569 阅读 · 1 评论 -
【python】三层BP神经网络推导&MNIST&优化效果对比&损失函数对比
一、概述本文的推导参见西瓜书P102~P103,代码参见该网址。主要实现了利用三层神经网络进行手写数字的识别。二、理论推导1、参数定义三层神经网络只有一层隐藏层。参数如下:x 输入层输入 v 输入层与隐藏层间的权值 α 隐藏层输入 b 隐藏层输出 ...原创 2019-10-14 04:52:31 · 1789 阅读 · 0 评论 -
【跟着Head First学python】11¾、关于线程:处理等待
1、引入线程嗯,线程,在操作系统这门课中学过这玩意,最经典的问题就是线程与进程的区别:线程是轻量级的进程,线程只拥有内存balabala,现在要讨论的不是这个。现在我们要解决以下问题:再上一章中,我们遇到了以下问题:如果某一函数执行时间过长,异常处理没法处理这种事情。这应该交给线程解决。怎么解决呢?这需要用到并发。设现在有一个函数A,它需要15秒的时间运行,主函数会调用到A。那么在...原创 2019-07-22 11:52:06 · 203 阅读 · 0 评论 -
【跟着Head First学python】12、高级迭代:疯狂地循环
1、初识CSV本章是Head First的最后一章了,不再为我们的webapp添加更多功能,而是着重讨论python中的循环与推导式。在讨论这些之前,先来深入了解一下python中的数据处理。现在我们有一个csv文件,不要纠结csv文件是什么,只把它当做是一种常见的表格文件即可。csv文件的特点是用逗号作为分隔值分隔各元素。将这个csv文件命名为buzzers,文件内容如下:TIME...原创 2019-07-22 17:20:34 · 169 阅读 · 0 评论 -
【python】Numpy基础:数组与向量化计算
本文所有内容均总结自《利用python进行数据分析》。这本书太无趣了,如果不自己做一点笔记的话,根本读不下去。于是有了这些文章。一、Numpy概述Numpy是目前Python数值计算中最为重要的基础包,大多数计算包都提供了基于Numpy的科学函数功能,将Numpy的数组对象作为数据交换的通用语。简而言之,Numpy提供的数组太好用了,大家都喜欢。我们将使用Numpy的以下几方面功能:...原创 2019-09-21 22:04:41 · 2248 阅读 · 3 评论 -
【python】爬虫入门:爬取网易云音乐的歌曲评论、用户歌单、用户听歌记录等
目录一、概述二、爬取流程1、爬取评论1.1、资源定位1.2、爬取准备1.3、代码实现2、爬取听歌记录2.1、资源定位2.2、爬取准备2.3、js劫持三、总结一、概述第一次学爬虫,正常来讲应该是爬百度百科或者是豆瓣之类的,但这俩网站我没兴趣,因此选择爬网易云。学习过程中主要参考该网址。二、爬取流程1、爬取评论1.1、资源定位...原创 2019-09-26 20:20:30 · 11883 阅读 · 2 评论 -
【python】爬虫入门:代理IP池的使用、文件的写入与网易云爬取时的注意事项
一、概述在两天前实现利用爬虫爬取网易云音乐用户的各类公开信息之后,我对现有爬虫进行了功能上的增加。主要有:①、使用代理IP池防止IP被封;②、将爬取用户的听歌记录、歌单、关注、粉丝这四类数据的代码分别封装成函数;③、将爬取到的数据写入csv文件;④、实现从指定某一用户开始,对其粉丝,粉丝的粉丝......等进行BFS式爬取。二、具体实现1、使用IP代理池我们知道,使...原创 2019-09-28 20:54:29 · 1257 阅读 · 1 评论 -
【python】Kaggle入门:titanic 的特征提取与特征分析
目 录0、概述1、Anaconda的准备2、导入必需包和数据集3、数据分析3.1 数据概览3.2 数据初步分析3.2.1 Pclass 客舱等级3.2.2Sex性别3.2.3 Age 年龄3.2.4 SibSp 兄弟数量3.2.5 Parch 父母与子女数量3.2.6 Fare 票价3.3 数据深入分析3.3.1PassengerI...原创 2019-10-03 23:22:07 · 2074 阅读 · 0 评论 -
【python】Kaggle入门:titanic 的数据清洗与模型训练
目 录0、概述1、数据清洗1.1 缺失值填充1.1.1 Age填充1.1.2Embarked填充1.1.3 Fare填充1.2 异常值处理1.3 特征转换2、建模和优化2.1、参数优化2.2 训练模型2.3 交叉验证3、预测4、总结0、概述在上一篇文章中,我们对训练集的各个特征已经有了初步了解,并提取出了九个可用的特征...原创 2019-10-06 01:11:46 · 1486 阅读 · 0 评论 -
【跟着Head First学python】11、异常处理:出问题了怎么办
1、为什么需要异常处理先看一下我们在第十章之后写完的代码:from flask import Flask, render_template,request,redirect,escape,sessionfrom vsearch import search4lettersfrom DBcm import UseDatabasefrom checker import check_log...原创 2019-07-17 16:29:40 · 513 阅读 · 0 评论 -
【跟着Head First学python】10、函数修饰符:包装函数
1、web的状态与访问权限我们在上一章已经完成了日志的记录与SQL的处理。并且可以通过viewlog网址查询所有的日志。但是现在问题来了:作为日志数据这样较为敏感较为有价值的信息,应该是所有人可以随意看到的吗?不应该。我们应添加一个功能,使得只有认证用户可以查询日志。最初的想法可以是这样的:在我们的webapp中维护一个全局变量,如果这个变量值为True,说明有权限;如果变量值为Fal...原创 2019-07-16 14:23:49 · 340 阅读 · 0 评论 -
【python应用】flask+gunicorn+nginx+supervisor:在服务器上部署python的web应用
我的生产环境为Centos7,python3.5。使用的模块为flask+gunicorn+nginx+supervisor。主要参考了该网址与该网址。flask我们已经较熟悉,是一个开发web应用的python模块。gunicorn用于调用我们的python代码,符合wgsi的规范。nginx 是一个高性能的web服务器。通常用来在前端做反向代理服务器。什么叫反向代理?举例如...原创 2019-06-14 05:24:29 · 755 阅读 · 2 评论 -
【跟着Head First学Python】1、基础知识:快速入门
近来准备学一下python,研究生主要做有关数据挖掘方面的,因此要学。只看书和码代码感觉很虚,写一写博客感觉会好很多。head first使用的是python 3.7,因此我也先学3.7,听说2.4和3.7大多数都是相同的,所以并无大碍。笔记上一般只记录自己觉得需要记的或者易错的地方。1、import 与 from importimport 后面接的是模块,模块里面有一大堆函数。因...原创 2019-06-09 01:37:57 · 588 阅读 · 0 评论 -
【跟着Head First学Python】2、列表数据:处理有序数据
python自带了四种数据结构:列表、字典、元组、集合,本章主要介绍第一种:列表。列表:有序的、可变的对象集合动态的:长度可以随时变化异构的:数字与字符串等不同类型的变量可以存在一个列表里元组:有序的、不可变的对象集合简单来说就是一个常量列表。字典:无序的键值对集合就类似C++里面的map。注意字典增加元素的插入顺序没有任何意义。在一个字典中,键的值是唯一的。集合:...原创 2019-06-09 03:15:48 · 328 阅读 · 0 评论 -
【跟着Head First学Python】3、结构化数据:处理结构化数据
上一章我们介绍了python中的列表,本章介绍其余三种数据结构:字典、集合和元组。1、字典字典有两个特点:其一,字典是由大括号{}包围的;其二,字典的每一个元素的模式都是“键:值”,而不是“键=值”,两个元素之间用逗号,隔开。注意,字典初始化的顺序不会保持,在初始化后,再次查看字典时,元素顺序可能变化。一般访问字典的数据时,使用中括号记法,中括号中是键,使用键来访问其关联的数据值。...原创 2019-06-09 22:55:41 · 1379 阅读 · 0 评论 -
【跟着Head First学python】4、代码重用:函数与模块
1、函数相比于C++,python中写一个函数需要一个关键字def。其主要结构如下:def 函数名(函数参数):"""函数文档,docstring""" 函数体 return如果一个函数是一个类的一部分,它就称为一个方法。注意函数没有类型信息,无论是函数参数还是返回值,都不需要类型信息,当然为了便于阅读,可以使用函数注解。函数注解是py3新增的一项功能,类似...原创 2019-06-11 17:10:58 · 399 阅读 · 0 评论 -
【跟着Head First学python】8、一点点类:抽象行为和状态
1、类的引入我们在第七章中想要实现代码的可重用、SQL连接与断开的简略写法,而这需要上下文管理协议的支持,而为了使用上下文管理协议,我们引入了类。在本章中,暂时不进行上下文管理协议与类的交互问题,而只讨论类。当然,其他复杂功能诸如继承与多态也暂时不考虑,我们在本章主要考虑封装。2、类的概述python中的类,大抵与其他语言中的类相似:都是由方法与属性构成的。方法实际上就是函数,属性...原创 2019-07-13 15:33:03 · 240 阅读 · 0 评论 -
【跟着Head First学python】9、上下文管理协议:挂接Python的with语句
1、上下文管理的内容在我初步的认知里,上下文管理,就是with,用处就是;为了减少代码量,提高代码可读性,同时避免犯一些缺少exit的错误。当然不止这些,但现在,我们只需要知道这些就已经足够。上下文管理,首先需要一个类,这个类里面必须有两个方法:__enter__和__exit__。当一个类中含有这两个方法,那么解释器就认为这个类是一个上下文管理器,它遵循上下文管理协议。也就是说,上下文管...原创 2019-07-14 01:55:06 · 209 阅读 · 0 评论 -
【跟着Head First学python】6、存储和管理数据:数据放在哪里
1、对文件的基本操作Python提供了内置支持来实现文本文件的打开、处理和关闭。①、文件的打开利用函数open,该函数有多种模式,但是主要功能是打开一个文件,并返回一个“流”。流可以认为是文件的一个别名,流的内容就是文件的内容。open函数是python的内置函数。open函数有两个参数,第一个参数是要打开的文件名,第二个参数是可选的。如果不选择使用第二参数,那么第二参数默认为'r...原创 2019-07-10 14:42:27 · 488 阅读 · 0 评论 -
【跟着Head First学python】7、使用数据库:具体使用Python的DB-API
1、安装mysql我的服务器上已经有了mysql,因此这里只进行win平台上的mysql安装。很简单,进入该网址,下载并安装即可。安装之后并不能直接用,这个安装其实是解压,要想真正安装成功,需要利用cmd进入mysql解压后的文件夹,进入bin文件夹,在bin文件夹中运行以下命令:mysqld -install出现安装成功才算是安装完毕。如图:注意,如果出现Insta...原创 2019-07-11 23:30:23 · 612 阅读 · 10 评论 -
【跟着Head First学python】5、构建一个web应用:来真格的
本章开始,事情会变得好玩,终于可以写出不是在控制台等地方运行的代码了。1、准备工作:安装flaskflask是一个框架,提供了一组模块,用于构建服务器端的web应用。注意,flask比较简单,当然我们的应用也比较简单,更复杂的框架如Django暂时还用不到。对于我们这些初学者来说,flask足够用了。使用pip安装flask框架。类似第4章。2、检验flask是否正确安装使用如...原创 2019-06-13 20:10:33 · 397 阅读 · 1 评论