一个非常正经的人-CSDN博客

原创机器学习（一）--分类，K-Means算法（NBA球星实例、超市用户实例）

离散与连续数据–数据对象、样本、实例离散属性–类别属性用名称标注用类别/类别号来标注连续属性–连续的小数在一个区间内连续，用浮点型数值表示数据集多个数据组合在一起–数据集合–数据集行：代表样本列：代表属性一、机器学习（一）概念在历史数据中发现规律，然后利用规律，对新的数据进行预测与指导。（二）数据分析与数据挖掘人工智能的基础想要一个好的机器学习结果，就...

2019-11-26 14:30:56 2202 1

原创数据分析（六）--聚合分组，交叉表，透视表，练习

练习import pandas as pddetail = pd.read_excel('detail.xlsx')print(detail.loc[:,['counts','amounts']].describe())# 按照菜品名分类detail['dishes_name'] = detail['dishes_name'].astype('category')print(de...

2019-11-21 22:01:07 1906

原创数据分析（五）--pandas（文件读写，合成表，增删改查，数据清洗，时间数据处理，统计函数）

一、文件的读写xlsx–工作簿–文件夹sheet–表import pandas as pddetail = pd.read_excel('data/meal_order_detail.xlsx')print(detail.shape) # 默认读取的是sheet1如果想读别的sheet表，使用sheetname参数，指定想要读取的表的索引位置。detail_sheet2 =...

2019-11-20 21:58:00 1401

原创数据分析（四）--项目（手写数字识别），pandas

一、手写数字识别一个手写数字，通过电脑程序做判断，这个数字是什么。技术点：numpy、KNN问题问题1为什么同一个数字要有多个样本？原因：手写数字存在不确定性，每次写的同一个数字都不完全一样，所以需要更多的样本，才能使匹配的结果更准确。问题2文件名的解读？_前为该样本代表的数字，_后为代表相同数字的样本序号。问题3假如每个文件生成一个32*32的矩阵，那么将生成很多个矩阵，后...

2019-11-19 20:38:22 855

原创数据分析（三）--numpy，KNN算法

一、numpy（一）矩阵1.创建矩阵（1）mat()格式1：字符串A = np.mat('1 0 0 0;0 1 0 0;-1 2 1 0;1 1 0 1')print(A)格式2：列表B = np.mat([[1,0,0,0],[0,1,0,0],[-1,2,1,0],[1,1,0,1]])print(B)（2）matrix()同mat()# 格式1：字符串C = ...

2019-11-19 20:36:51 1241

原创数据分析（二）--numpy

numpynumpy的主要对象是同种元素的多维数组。numpy底层是用C语言实现的。面试：数组和列表有什么区别？结构同样都是[元素1,元素2,元素3 … ]。在C语言、java中叫做数组；在python中叫做列表。python中的列表可以存储不同类型的对象；C语言中的数组只能存放相同类型的数据。导包import numpy as np一、numpy介绍numpy是用于数据科...

2019-11-19 20:35:48 1066

原创数据分析（一）--准备

需要准备的学科概率论统计学线性代数高等数学一、统计学1.众数是数据的一种代表数，反映了一组数据的集中程度。往往反映了一种最普通的倾向。例：2，3，-1，2，1，3众数：2，3例：1，2，3，4，5众数：无注意众数可以不唯一，但也可以没有众数在高斯分布中，位于峰值众数也可以用于非数值类的数列当中例：鸡，鸭，鱼，鸡众数：鸡2.中位数就是中值，...

2019-11-19 20:32:39 811

原创爬虫（十）--增量爬虫，分布式，验证码，fiddler，自定义监控

一、增量爬虫增量爬虫：就是使爬虫获取到的数据以增量的形式稳定增长。增量爬虫的核心，就是去重。（一）方案1.爬虫结束在保存到数据库之前，查看数据是否重复，或者用update方法做更新操作。2.爬虫开始在爬取数据前，查看这个url是否被爬过。3.爬虫中间有时候在爬取一些网站的时候，可能得到了一些数据，但是这个网页的更新速度比较快，这时候我们可以查看这个网页是否有更新，如果更新了，响应...

2019-11-13 21:28:33 813

原创爬虫（九）--scrapy框架

一、scrapy框架（一）安装pip install -i https://pypi.tuna.tsinghua.edu.cn/simple scrapy（二）步骤1.创建项目2.配置不遵循robot协议请求头3.编写想要获取的url，并测试启动命令scrapy crawl maoyan --nolog4.设置想要提取的字段5.实例化item对象6....

2019-11-13 21:23:25 716

原创 Redis数据库（二）--高级应用（事务，消息订阅，持久化，主从复制）

Redis高级应用一、Redis事务及乐观锁（一）事务Redis支持简单的事务Redis与mysql事务的对比MysqlRedis开启start transactionmuitl语句普通sql普通命令失败rollback 回滚discard 取消成功commitexec在mutil后面的语句中, 语句出错可能有2...

2019-11-08 21:26:06 236

原创 Redis数据库（一）--安装配置，基础知识，基础命令

一、Redis（一）安装及配置redis免安装，直接解压即可，然后将redis路径放入path环境变量配置服务redis-server --service-install redis.windows.conf --loglevel verbose --maxheap 200m启动服务（二）Redis基础知识客户端和服务器命令默认端口号：6379服务器命令：redis-s...

2019-11-07 21:24:53 366

原创 MongoDB数据库（二）--索引，导入导出，复制集

一、MongoDB（一）索引索引提高查询速度，降低写入速度，权衡常用的查询字段，不必在太多列上建索引在mongodb中，索引可以按字段升序/降序来创建，便于排序默认是用btree来组织索引文件，2.4版本以后，也允许建立hash索引1.btree索引2.hash索引Hash检索效率非常高，索引的检索可以一次定位，不像B-Tree 索引需要从根节点到枝节点，最后才能访问到数据节...

2019-11-07 21:22:14 1914

原创 python中url的编码和解码（参数/字符串）

from urllib import parseparams = { 'keyword':'哈哈哈', 'a':1, 'b':2}params_1 = parse.urlencode(params)print(params_1)str = '·'str_1 = parse.quote(str)print(str_1)str_2 = parse.unquot...

2019-11-07 14:01:04 1326

原创 MongoDB数据库（一）--基本操作，增删改查，聚合操作，游标

MongoDB新建的默认有两个数据库admin–配置权限local–固定的重要数据一、基本操作查看数据库show dbs创建数据库（隐式创建）没有成功，需要两步还可以查看集合show tablesshow collections删除库和集合db.collectionName.drop() // 删除集合db.dropDatabase() //...

2019-11-06 20:42:18 1199

原创爬虫（八）--分页，项目改多线程，MongoDB

一、分页的两种方法（一）for循环这种方法的使用限制是，需要知道最大页码。for i in range(1,20): response = requests.get(url %i)（二）while True循环使用这种方法，需要限定跳出循环的边界。i = 0while True: json_str = get_conent(url.format(type_,i) ,heade...

2019-11-05 19:06:36 288

原创爬虫（七）--程序，多进程，多线程

爬取网站的流程：确定网站哪个url是数据的来源简要分析网站结构，查看数据在哪里查看是否有分页，解决分页问题发送请求，查看response.text里面是否有我们想要的数据如果有数据，提取，保存如果没有，我们就可以通过以下两种方式来实现爬取分析数据来源，查看是否可以通过一些接口获取数据（首推）应该首先想到，数据可能是从ajax接口中获取的。分析接口的步骤...

2019-11-04 20:10:25 569

原创爬虫（六）--selenium+phantomjs解决网页是js的数据获取

path环境变量的意义：让系统找到一些exe文件1.有python和anaconda，想使用anaconda，要怎么配置环境变量？（1）配置一下路径 C:\Anaconda3----python.exe C:\Anaconda3\Scripts----pip.exe（2）把这两个目录放在path环境变量的最前面，这样系统在找python和pip的时候会先找到anaconda下面的这个...

2019-11-02 15:00:11 2112

原创爬虫（五）--xpath应用，反爬，动态页面处理

爬取网站的流程：确定网站哪个url是数据的来源简要分析网站结构，查看数据在哪里查看是否有分页，解决分页问题发送请求，查看response.text里面是否有我们想要的数据如果有数据，提取，保存注意事项：刚开始做爬虫项目，先不要用类做，只需要关注数据的来源等问题的解决，不要关注封装结构的处理一、xpath应用（一）扇贝单词项目import requests,refro...

2019-10-31 19:37:15 3693

原创爬虫（四）--正则应用，xml，xpath

一、正则应用猫眼电影项目（封装）需求：爬取猫眼电影top100，并筛选出电影名、主演、上映时间、评分信息。1.取dl2.取dd3.取电影名4.取主演5.取上映时间6.取评分import requests,re,jsonclass Maoyan(): def __init__(self,url): self.url = url ...

2019-10-30 19:29:45 580

原创爬虫（三）--cookie，session，爬虫登录，代理，数据，正则表达式

一、cookie和session（一）产生的缘由由于http是一个无状态的协议，每次请求如果需要之前请求的一些信息，就必须重新发送之前的请求。为了解决这种问题，产生了一种记录状态的技术–就是cookie和session。（二）作用cookie是在客户端记录状态，session是在服务端记录状态。在做爬虫的时候，如果要实现登录，只需要将浏览器中登录后的cookie信息封装到请求头中就可...

2019-10-29 20:36:03 441

原创爬虫（二）--requests模块

一、requests模块（一）get请求1.步骤导包import requests确定请求的urlbase_url = ''发送请求，获取响应response = requests.get( url = base_url, headers = {}, # 请求头字典 params = {}, # 请求参数字典)2.response对象这...

2019-10-28 19:44:23 403

原创爬虫（一）--基础

一、网络爬虫定义：一个程序脚本，可以自动地抓取互联网上信息的脚本。（一）爬虫可以解决的问题解决冷启动问题搜索引擎的根基，做搜索引擎少不了爬虫建立知识图谱，帮助建立机器学习知识图谱可以制作各种商品的比价软件、趋势分析（二）爬虫工程师的进阶之路初级爬虫工程师web 前端的知识： HTML、CSS、JavaSc1ipt、 DOM、 DHTML 、Ajax、jQuery、json ...

2019-10-27 20:07:22 784

原创 Flask框架（七）--效率

flask效率flask默认支持多线程的服务器操作pyhton中提高性能的方式：进程forkprocessmultiprocessing线程threadthreading协程python的一种提升效率的手段，消耗小，由人为控制切换，利用线程执行中的耗时操作时间，去做别的事情。实际上协程就是使用yield进行封装的。使用greenlet封装了yieldgeven...

2019-10-21 21:31:56 1134

原创 Flask框架（六）--蓝图，请求钩子，上下文，单元测试（Flask，Django）

一、蓝图–blueprint类似于django中的app子应用。flask中，要将项目模块化，就应该使用blueprint，它是flask自带的一种开发模式，目的是方便开发大型的项目。使用from flask import Flask,Blueprint# 实例化一个蓝图对象# 参数：第一个bp = Blueprint('goods',__name__)@bp.route('/...

2019-10-21 19:42:06 538

原创 Flask框架（五）--flask-restful，flask-migrate

一、Restfuldjango中restful是一种api接口的设计规范，通常定义的路由不会出现“动词”。（一）flask中的restful需要插件：flask-restful1.安装插件pip install flask-restful2.修改main.py，配置3.使用from main import apifrom flask_restful import Resour...

2019-10-17 16:51:36 747

原创 Flask框架（四）--分页，form表单类，csrf

一、分页django中使用封装好的分页器paginator进行分页，它为我们提供了很多封装好的方法。flask中需要自己封装。封装pager.pyimport mathclass Pager(): # data:列表 def __init__(self,data,page_size): ''' :param data: 数据 ...

2019-10-17 16:51:03 383

原创 Flask框架（三）--获取图片，flask-script（runserver，migrate），会话，请求，考勤功能

一、获取图片保存图片使用图片二、Flask插件flask-script是第三方提供的Flask项目交互式插件，可以使用flask-script管理安装项目命令。安装flask-scriptpip install flask-script使用flask-script插件编写运行项目，实现项目运行和表结构同步配置pycharm启动第一种只能使用runserver，不能使用...

2019-10-16 22:39:37 1109

原创 Flask框架（二）--flask-sqlalchemy，项目目录，配置文件，登录注册，上传图片常用属性

一、Flask数据库操作django中使用ORM连接操作数据库，如果不使用数据库，将会失去站点管理的功能。python使用pymysql连接操作数据库，flask中也可以使用pymysql连接。sqlalchemy：python的开源数据库框架（一）flask-sqlalchemy对sqlalchemy进行封装安装pip install flask-sqlalchemypip in...

2019-10-16 22:38:56 1522

原创 Flask框架（一）--搭建，请求，静态文件，模板（日历制作）

Flask轻量级框架：flask，web.py，tornado，开发灵活，开发效率低，可以真正体现程序员的水平。重量级框架：django，方便程序员开发，提供大量的功能组件（站点管理，csrf_token，富文本，表单类，缓存，日志，ORM）flask提供了什么？只能够完成最简单的请求响应jinja2：模板系统werkzeug：工具箱（wsgi）插件一、开始Flaskf...

2019-10-16 22:38:13 533

原创 Django框架（十八）--读写分离，日志

一、读写分离django使用读写分离1.settings.py配置写：master（dafault）读：slave涉及到django服务如何选择使用数据库的问题2.模型同步注意如果使用mysql数据库，首先应该先建库使用sqlite3，不需要建库，直接数据迁移，同步表结构python manage.py migrate --database slave3.配置读写分离使...

2019-10-16 22:37:25 483

原创 Django框架（十七）--middleware，自定义管理器

一、中间件–middlewaredjango中间件是一个轻量级的插件系统，存在于视图处理前后的请求和响应中。开发人员，可以利用中间件，干预视图的请求和响应。中间件是一个面向对象的类，能够干预视图的处理，有五种方法。process_request：在请求后，在process_view之前process_view：在process_request之后，在执行views之前执行vie...

2019-10-14 21:13:45 356

原创缓存

架构CS架构（client/server）：客户端/服务器BS架构（brower/server）：浏览器/服务器区别：客户端负载CS负载大更新维护，收集用户信息，和用户交互，发送请求BS负载小，只负责展示，将逻辑处理的过程交给了服务器维护成本（版本迭代，bug修改，运维相关）CS大需要下载更新包BS小只需要修改服务器安全性CS高需要...

2019-10-14 21:12:16 219

原创 Django框架（十六）--redis，celery异步任务

IO密集型–使用多线程计算密集型–使用多进程一、celery在web开发中，要给用户发送邮件，发送短信，都属于耗时的操作，会导致给用户响应的时间变长。这种情况的解决办法，就是给用户先返回一个响应，不要影响用户的使用。将这些耗时的操作，放在后台执行，例如新开一个进程，celery就是用来处理这个问题的。celery组成部分worker工人，执行任务的单元broker消息中间...

2019-10-08 17:15:28 367

原创 Django框架（十五）--异步通信

一、Web开发与Django项目异步通信邮件和短信发送：通知、验证的作用验证：比如用户密码相关，资金相关，都是对身份的验证使用邮箱或者短信或者钉钉做一个登录验证（获取验证码，添加验证码，登录）**获取验证码：**页面增加按钮，ajax请求，视图可以使用get请求**提交验证码：**随着form表单提交，登录接口视图，接收验证码进行验证（一）python邮件发送python发送邮件很方...

2019-09-29 16:34:19 897

原创 Django框架（十四）--购物车，全部订单

一、加入购物车加入购物车获取商品id，数量，写入购物车购物车结算首先生成订单支付宝付款修改订单的状态购物车模型# 购物车表class Cart(models.Model): goods_number = models.IntegerField(verbose_name='商品数量') goods_price = models.FloatField(...

2019-09-28 16:39:14 3007 2

原创 Django框架（十三）--支付

一、Django支付微信请求地址https://pay.weixin.qq.com/static/applyment_guide/applyment_index.shtml申请条件支付宝支付宝支付流程：卖家发出购买请求，服务生成订单提交订单，卖家将支付请求发到支付宝支付宝返回支付页面买家在支付页面完成支付支付处理付款请求支付宝返回处理结果（支付...

2019-09-26 19:50:47 604

原创 Django框架（十二）--电商项目修改

电商项目卖家/买家搜索框视图修改goods_list视图，添加模糊查询功能import mathdef goods_list(request): ''' 如果req_type==findall 是查看更多的功能如果req_type==search 是模糊查询的功能 ''' keywords=request.GET...

2019-09-25 19:30:44 336

原创 Django框架（十一）--子应用管理，电商项目

一、子应用管理（一）静态系统在各自的app当中，创建一个static目录，并在static下面创建各自app命名的目录。子static：将各自的静态文件放在各自的子static目录下的相应位置，在主目录下面创建主static目录。主static：子static目录：为了将各自的静态文件进行区分，管理。主static目录：项目在运行期间，需要的文件。（二）静态文件的收集配置文...

2019-09-24 19:41:00 504

原创 Django框架（十）--视图类，DRF（restful），接口总结

一、web开发与视图类，restful（一）视图类视图：可以被调用的的对象，接收一个请求，返回响应。之前写的是函数视图。以类定义的视图，叫做类视图。函数视图：以函数定义的视图，每个视图处理一个请求，一种类型的请求。代码可读性较差。类视图：以类定义的视图，定义各种方法分别处理不同请求。（二）视图类的使用视图路由结果–使用postman发送请求，进行验证post、put、d...

2019-09-23 20:05:38 983

原创 Django框架（九）--动静分离，api接口，Vue框架

继承父模板修改页面制作goods_list商品列表电商项目持续更新一、动静分离视图# 提供数据的api接口# 返回的是一个json对象def goods_list_api(request,status,page=1): if status == '0': # 下架商品 goods = Goods.objects.filter(goods_status=...

2019-09-21 15:31:13 1214

C语言 图书管理系统 小学期

空空如也

C语言图书管理系统小学期