2020年12月_北山啦

原创 Python时间序列分析--ARIMA模型实战案例

本文将介绍使用Python来完成时间序列分析ARIMA模型的完整步骤与流程时间序列分析概念**《时间序列分析》**是统计学中的一个非常重要的分支，是以概率论与数理统计为基础、计算机应用为技术支撑，迅速发展起来的一种应用性很强的科学方法。时间序列是变量按时间间隔的顺序而下形成的随机变量序列，大量自然界、社会经济等领域的统计指标都依年、季、月或日统计其指标值，随着时间的推移，形成了统计指标的时间序列，例如，股价指数、物价指数、GDP和产品销售量等等都属于时间序列。建立模型基本步骤ARIM.

2020-12-22 10:09:46 39168 74

原创 SPSS建立时间序列加法季节模型实战案例

实验名称疏系数模型和季节模型实验内容 1、简单季节模型实验目的 1、掌握疏系数模型 2、熟练建立季节模型目录简单季节模型结构模型建立时序图差分平稳化白噪声检验模型定阶参数估计和模型检验模型预测推荐阅读使用Python完成时间序列分析基础 SPSS建立时间序列乘法季节模型实战案例 Pyth...

2020-12-31 13:03:01 6305 1

原创 SPSS建立时间序列疏系数模型

实验名称疏系数模型和季节模型实验内容 1、简单季节模型实验目的 1、掌握疏系数模型 2、熟练建立季节模型推荐阅读使用Python完成时间序列分析基础 SPSS建立时间序列乘法季节模型实战案例 Python建立时间序列ARIMA模型实战案例疏系数模型的定义时序图白噪声检验...

2020-12-31 12:51:49 3294

原创 Python爬虫入门

Python爬虫入门之初识爬虫简单介绍Python爬虫相关的知识文章目录Python爬虫入门之初识爬虫1. 什么是爬虫？2. requests的基本使用2.1 你的第一个爬虫程序2.2 headers请求头的重要性3. 案例：豆瓣电影`Top250`数据请求4. 网页解析推荐阅读：使用xpath爬取数据jupyter notebook使用BeautifulSoup爬取豆瓣电影Top250一篇文章带你掌握requests模块Python网络爬虫基础–BeautifulSoup

2020-12-31 10:52:48 2128

原创使用xpath爬取数据

使用xpath来提取数据，爬取数据的简单语法。下载模块快速下载模块pip install lxml 导入模块 from lxml import etreeetree的使用 h=etree.HTML(response.text)#response.text是网页的源码h.xpath('//img') #寻找所有的img结点,h.xpath('//div').xpath('.//img')#寻找所有div下的所有img结点xpath的语法符号 XPath 使用路径表达式在.

2020-12-30 23:21:45 9386

原创 MarkDown基础使用教程及使用jupyter notebook做笔记

MarkDown基础使用教程，jupyter notebook做笔记markdown的基本使用以及使用jupyter notebook做笔记文章目录MarkDown基础使用教程，jupyter notebook做笔记标题一级标题使用1个#二级标题使用2个#三级标题使用3个#四级标题使4用个#五级标题使用5个#六级标题使用6个#文字删除线斜体加粗斜体+加粗下划线高亮（需勾选扩展语法）下标（需勾选扩展语法）上标（需勾选扩展语法）表情符号一些表情例子表格引用列表无序列表--符号空格有序列表--数字 `.

2020-12-30 16:29:00 5793 1

原创 JS的解析

JS的解析学习目标：了解定位js的方法了解添加断点观察js的执行过程的方法应用 js2py获取js的方法1 确定js的位置对于前面人人网的案例，我们知道了url地址中有部分参数，但是参数是如何生成的呢？毫无疑问，参数肯定是js生成的，那么如何获取这些参数的规律呢？通过下面的学习来了解1.1 观察按钮的绑定js事件通过点击按钮，然后点击Event Listener，部分网站可以找到绑定的事件，对应的，只需要点击即可跳转到js的位置1.2 通过search all file 来搜

2020-12-30 15:32:27 2129

原创 Scrapy从入门到放弃6--scrapy_redis概念作用和流程

scrapy_redis概念作用和流程学习目标了解分布式的概念及特点了解 scarpy_redis的概念了解 scrapy_redis的作用了解 scrapy_redis的工作流程在前面scrapy框架中我们已经能够使用框架实现爬虫爬取网站数据,如果当前网站的数据比较庞大, 我们就需要使用分布式来更快的爬取数据1. 分布式是什么简单的说分布式就是不同的节点（服务器，ip不同）共同完成一个任务2. scrapy_redis的概念scrapy_redis是scrapy框架的

2020-12-30 15:29:57 1460

原创 Scrapy从入门到放弃5--中间件的使用

scrapy中间件的使用学习目标：应用 scrapy中使用间件使用随机UA的方法应用 scrapy中使用代理ip的的方法应用 scrapy与selenium配合使用1. scrapy中间件的分类和作用1.1 scrapy中间件的分类根据scrapy运行流程中所在位置不同分为：下载中间件爬虫中间件1.2 scrapy中间的作用：预处理request和response对象对header以及cookie进行更换和处理使用代理ip等对请求进行定制化操作，但在scrapy默认

2020-12-30 15:12:40 1553

原创 Scrapy从入门到放弃4--管道pipelines使用

Scrapy管道的使用学习目标：掌握 scrapy管道(pipelines.py)的使用之前我们在scrapy入门使用一节中学习了管道的基本使用，接下来我们深入的学习scrapy管道的使用1. pipeline中常用的方法：process_item(self,item,spider):管道类中必须有的函数实现对item数据的处理必须return itemopen_spider(self, spider): 在爬虫开启的时候仅执行一次close_spider(self,

2020-12-30 15:11:35 1557

原创 Scrapy从入门到放弃3--数据建模与请求

scrapy数据建模与请求学习目标：应用在scrapy项目中进行建模应用构造Request对象，并发送请求应用利用meta参数在不同的解析函数中传递数据1. 数据建模通常在做项目的过程中，在items.py中进行数据建模1.1 为什么建模定义item即提前规划好哪些字段需要抓，防止手误，因为定义好之后，在运行过程中，系统会自动检查配合注释一起可以清晰的知道要抓取哪些字段，没有定义的字段不能抓取，在目标字段少的时候可以使用字典代替使用scrapy的一些特定组件需要Item

2020-12-30 15:10:19 1430

原创 Scrapy从入门到放弃2--模拟登入

scrapy模拟登陆学习目标：应用请求对象cookies参数的使用了解 start_requests函数的作用应用构造并发送post请求1. 回顾之前的模拟登陆的方法1.1 requests模块是如何实现模拟登陆的？直接携带cookies请求页面找url地址，发送post请求存储cookie1.2 selenium是如何模拟登陆的？找到对应的input标签，输入文本点击登陆1.3 scrapy的模拟登陆直接携带cookies找url地址，发送post请求存储co

2020-12-30 15:07:58 1398

原创 selenium总结

selenium提取数据总结附思维导图1. driver对象的常用属性和方法在使用selenium过程中，实例化driver对象后，driver对象有一些常用的属性和方法driver.page_source 当前标签页浏览器渲染之后的网页源代码driver.current_url 当前标签页的urldriver.close() 关闭当前标签页，如果只有一个标签页则关闭整个浏览器driver.quit() 关闭浏览器driver.forward() 页面前进driver.back()

2020-12-24 16:29:27 1555 2

原创 Python中os文件操作模块方法总结附思维导图

Python中os文件操作模块方法总结附思维导图os 模块提供了非常丰富的方法用来处理文件和目录。本文将简单介绍常用的方法，如下表所示：具体部分操作如下import os切换工作路径os.chdir("C:\软件")得到当前工作目录，即当前Python脚本工作的目录路径:os.getcwd()'C:\\软件'返回指定目录下的所有文件和目录名os.listdir()['basic-miktex-20.12-x64.exe', 'EViews 10.0 6

2020-12-23 23:53:25 2199 4

原创 Scrapy从入门到放弃1--开发流程

scrapy的入门使用学习目标：掌握 scrapy的安装应用创建scrapy的项目应用创建scrapy爬虫应用运行scrapy爬虫应用 scrapy定位以及提取数据或属性值的方法掌握 response响应对象的常用属性1 安装scrapy命令: sudo apt-get install scrapy或者： pip/pip3 install scrapy2 scrapy项目开发流程创建项目: scrapy startproject mySpider

2020-12-23 22:40:32 1580

原创 pandas完成时间序列分析基础

import pandas as pdimport numpy as np数据重采样时间数据由一个频率转换到另一个频率降采样升采样rng = pd.date_range('1/1/2011', periods=90, freq='D')ts = pd.Series(np.random.randn(len(rng)), index=rng)ts.head()2011-01-01 -0.2257962011-01-02 0.8909692011-01-03 -0.

2020-12-22 13:37:12 4260 5

原创 BeautifulSoup爬取豆瓣电影Top250

任务要求：爬取豆瓣电影Top250的电影名、评分、短评、评分人数等信息通过博客对beautifulSoup4的简单介绍，现在开始实战啦，没有看过的，可以先看看Python网络爬虫基础–BeautifulSoup使用selenium定位获取标签对象并提取数据利用selenium爬取数据总结直接上代码# -*- coding: utf-8 -*-"""Created on Mon Dec 22 12:03:06 2020@author: kun"""import r.

2020-12-22 11:31:19 5325 2

原创使用selenium爬取京东商品信息

任务要求：用selenium爬取京东商城某一款华为手机的评论，要求至少爬取2000条用户名和用户评论，网址为https://www.jd.com/，将这些信息存入Excel文件中，文件后缀为.csv。将ipynb文件和后缀为.csv的文件压缩打包通过博客对selenium的简单介绍，现在开始实战啦，没有看过的，可以先看看使用selenium定位获取标签对象并提取数据利用selenium爬取数据总结直接上代码"""Created on Thu Dec 10 14:15:14 20.

2020-12-21 20:15:22 1840

原创 SPSS建立时间序列乘法季节模型实战案例

时间序列分析-------乘法季节模型实验名称乘法季节模型实验内容乘法季节模型实验目的 2、熟练建立乘法季节模型乘法季节模型结构乘法季节模型建立绘制时序图 ...

2020-12-20 14:11:48 10158 13

原创最全mongodb总结以及pymongo实现python交互思维导图

最全mongodb总结以及pymongo实现python交互思维导图

2020-12-20 10:32:09 827 2

原创使用python完成mongodb数据库的增删改查

使用python远程操作mongodb数据库1. mongdb和python交互的模块pymongo 提供了mongdb和python交互的所有方法安装方式: pip install pymongo2. 使用pymongo2.1 导入pymongo并选择要操作的集合数据库和集合能够自动创建2.1.1 无需权限认证的方式创建连接对象以及集合操作对象from pymongo import MongoClientclient = MongoClient(host,port) # 如果是

2020-12-19 16:54:00 2593 1

原创最简单的ubuntu18.04下mongodb介绍和安装

废话不多说，开始安装,以ubuntu18.04为例mongodb的安装mongodb具有两种安装方式：命令安装或源码安装命令安装在ubuntu中使用apt-get工具安装sudo apt-get install -y mongodb-org或参考官方文档 https://docs.mongodb.com/manual/tutorial/install-mongodb-on-ubuntu/源码安装选择相应版本和操作系统并下载https://www.mongodb.com/d.

2020-12-19 16:24:57 916 1

原创使用KNN和SVM算法实现手写字体识别分类

下面分别采用的是k近邻算法（KNN）和SVM实现的手写数字识别。项目训练目标学会调用数据集, 利用Python相关程序从数据集中读取数据学会根据数据集训练分类器, 并在Python下实现算法学会运用已学的知识完成实际数据集的分类程序学会观察分析算法里相关参数的意义,作用及其对结果产生的影响学会对不同算法进行比较并学会分析各个算法优缺点导入模块from sklearn.model_selection import GridSearchCVfrom sklearn import s.

2020-12-19 15:25:17 9170 17

原创 Python常见的反爬手段和反反爬虫方法

常见的反爬手段和解决思路1 服务器反爬的原因爬虫占总PV(PV是指页面的访问次数，每打开或刷新一次页面，就算做一个pv)比例较高，这样浪费钱（尤其是三月份爬虫）。三月份爬虫是个什么概念呢？每年的三月份我们会迎接一次爬虫高峰期，有大量的硕士在写论文的时候会选择爬取一些往网站，并进行舆情分析。因为五月份交论文，所以嘛，大家都是读过书的，你们懂的，前期各种DotA，LOL，到了三月份了，来不及了，赶紧抓数据，四月份分析一下，五月份交论文，就是这么个节奏。公司可免费查询的资源被批量抓走，丧失竞争力，

2020-12-19 14:59:27 2467 2

原创 selenium高阶用法搞定反爬虫

selenium的其它使用方法知识点：掌握 selenium控制标签页的切换掌握 selenium控制iframe的切换掌握利用selenium获取cookie的方法掌握手动实现页面等待掌握 selenium控制浏览器执行js代码的方法掌握 selenium开启无界面模式了解 selenium使用代理ip了解 selenium替换user-agent1. selenium标签页的切换当selenium控制浏览器打开多个标签页时，如何控制浏览器在不同的标签页中进行切换呢？需要

2020-12-19 14:47:57 3150 1

原创使用selenium定位获取标签对象并提取数据

selenium提取数据知识点：了解 driver对象的常用属性和方法掌握 driver对象定位标签元素获取标签对象的方法掌握标签对象提取文本和属性值的方法1. driver对象的常用属性和方法在使用selenium过程中，实例化driver对象后，driver对象有一些常用的属性和方法driver.page_source 当前标签页浏览器渲染之后的网页源代码driver.current_url 当前标签页的urldriver.close() 关闭当前标签页，如果只有一个标

2020-12-19 14:44:38 4532 2

原创利用selenium爬取数据总结

selenium的介绍知识点：了解 selenium的工作原理了解 selenium以及chromedriver的安装掌握标签对象click点击以及send_keys输入1. selenium运行效果展示Selenium是一个Web的自动化测试工具，最初是为网站自动化测试而开发的，Selenium 可以直接调用浏览器，它支持所有主流的浏览器（包括PhantomJS这些无界面的浏览器），可以接收指令，让浏览器自动加载页面，获取需要的数据，甚至页面截屏等。我们可以使用selenium很容易

2020-12-14 12:27:45 2250

原创 Python第三方库提速安装

Python经常需要安装第三方库，原始的下载速度很慢，使用国内的镜像就很快啦国内镜像源网址清华https://pypi.tuna.tsinghua.edu.cn/simple阿里云http://mirrors.aliyun.com/pypi/simple/中国科学技术大学https://pypi.mirrors.ustc.edu.cn/simple/豆瓣http://pypi.douban.com/simple/使用方法pip3 install -i https://pypi.tu

2020-12-14 11:12:18 3372 2

原创一篇文章带你掌握requests模块

一篇文章带你掌握requests模块知识点：掌握 headers参数的使用掌握发送带参数的请求掌握 headers中携带cookie掌握 cookies参数的使用掌握 cookieJar的转换方法掌握超时参数timeout的使用掌握代理ip参数proxies的使用掌握使用verify参数忽略CA证书掌握 requests模块发送post请求掌握利用requests.session进行状态保持前面我们了解了爬虫的基础知识，接下来我们来学习如何在代码中实现我们的爬虫

2020-12-13 21:41:17 5171

原创 selenium驱动新版edge

selenium驱动新版edge下载地址大家需要根据自己的edge beta的版本来选择自己edge驱动下载地址具体的方法见下面查看edge版本点击右上角即可就可以看到版本啦下载驱动点击[网页]下载对应的驱动就好啦(https://msedgewebdriverstorage.z22.web.core.windows.net/)示例from selenium import webdriverdriver = webdriver.Edge(r"M:/msedgedriv

2020-12-13 21:34:41 5338

北山啦的博客