小武呐-CSDN博客

原创数据分析Day5 2023/8/5

np.diff()为各相邻项的差 np.nonzero()会输出两个array，第一个是行第二个是列，会输出非0数位置的行列信息。np.mean()计算平均数 np.median()求中位数 np.cumsum为逐渐累加的值。np.clip(A,MIN,MAX)会将小于MIN的值变为MIN，将大于MAX的值变为MAX。np.argmax np.argmin 可以索引array中的最大值与最小值的位置。np.transpose()是转置，将行与列互换。np.sort()会逐行进行排序。

2023-08-06 21:02:31 70

原创数据分析Day4 2023/8/4

随机生成矩阵通过np.random.random((x,y)) 括号内为shape，第一个random是模块，之后的random为random模块下的random函数。通过np.linspace(x,y,z)可以将x-y分为z份，输出结果为分段点的数值。通过np.arange（10，20，2）可以生成一个从10开始，步长为2最终到达18的array。array.shape 可以表达np.array里array的形状，如（2，3）即两行三列。np.sin() np.cos()等可以运算三角函数值。

2023-08-06 20:45:07 68

原创数据分析Day3 2023/8/3

其中σ代表整体的方差，n为抽样数量，N为总体数量。δ为总体方差，Δ为要控制的方差，N为总数。

2023-08-06 17:43:26 70

原创数据分析Day2 2023/8/2

峰态系数越大，顶会越尖，越小，越平缓。可以用来判断是否为正态分布，如果与3相差2及以上，那么大概率不是正态分布。数据分析的集中趋势分析的数学方法：均值、中位数、众数、分位数。偏态系数，S为正时，为正偏，说明均值比较大，S为负时，则相反。离中趋势分析的数学方法为标准差以及方差，包括正态分布。正态分布和三大分布：标准正态分布是均值为0，方差为1。如果位置为小数，则去尾数+差*小数部分。三大分布为：卡方分布、T分布、F分布。Q1的位置=（n+1）*0.25。Q2的位置= （n+1）*0.5。

2023-08-06 16:48:43 90

原创数据分析Day1 2023 8/1

数据库面对业务储存，仓库面对主题储存（主题：较高层次上对分析对象数据的一个完整并且一致的描述）。监测与抓取：抓取为直接解析网页、接口、文件信息，抓取的常用工具urllib、urllib2、requests、scrapy、phantomJS、beautifulSoup、Xpath（lxml）；常用的数据学习网站： kaggle、TianChi天池、ImageNet、Open Images、统计局、政府机构、公司财报等。数据获取的手段一般有：数据仓库、监测与抓取、填写、日志、埋点、计算。

2023-08-06 14:47:15 32

原创爬虫学习Day20 2023/7/28

/: 查找所有子孙节点，不考虑层级关系。

2023-07-30 23:43:45 603

原创爬虫学习Day19 2023/7/27

今天了解xpath插件，内容较多，使用说明以及基本代码在Day20与Day20内容一起体现。

2023-07-30 23:15:31 64

原创爬虫学习Day18 2023/7/26

今天了解了代理池的概念。当我们使用同一ip高频率访问同一网站时，可能会被网站封禁ip，如果我们有一系列ip进行访问，那么这个问题就可以解决。用python实现代理池需要使用random模块。酱紫就可以实现代理池的功能啦。

2023-07-30 22:54:44 60

原创爬虫学习Day17 2023/7/25

今天学习了代理服务器的一些知识。爬虫时，我们可能会高频访问一个网页，可能会被网页检查到异常，封IP。这时我们使用代理功能。x的值以字典的形式存在，在网上得到代理IP以及PORT，'http':'ip:port'。我们在使用代理时需要使用到handler请求定制。

2023-07-30 22:43:09 42

原创爬虫学习Day16 2023/7/24

在网页的检查中，我们可以在Element里看到网页的信息，个人信息页面是utf-8，但是还报错了编码错误，因为并没有进入到个人信息页面而是跳转到了登陆页面。这时就可能是网页的meta charset不是utf-8，而是一些特定的字符串。有时我们已经爬取到需要的内容，但是无法加载进入，可能是缺少了cookie和referer。cookie一般携带登录信息，referer判断当前路径是不是由上一个路径进来的。一般情况下是图片防盗的措施。有些网页需要referer，有些不需要。今天认识了一些初级的反扒手段。

2023-07-30 21:38:03 46 1

原创爬虫学习Day15 2023/7/21

定制更高级的请求头(随着业务逻辑的复杂请求对象的定制已经满足不了我们的需求 (动态cookie和代理不能使用请求对象的定制)urllib.request.Request(url,headers ,data)可以定制请求头。# (1)获取hanlder对象。# (2)获取opener对演。# (3) 调用open万法。

2023-07-23 22:43:58 600 2

原创爬虫学习Day14 2023/7/20

4.通过ur11ib发送请求的时候，有可能会发送失败，这个时候如果想让你的代码更加的健壮，可以通过try-except进行捕获异常，异常有两类，URLError\HTTPError。3.http错误: http错误是针对浏览器无法连接到服务器而增加出来的错误提示。2.导入的包urllib.error.HTTPErrorurllib.error.URLError。如果要对异常做出反应与提醒，则与之前的Python基础中的异常内容相同。1.HTTPError类是URLError类的子类。

2023-07-23 22:35:23 606

原创爬虫学习Day13 2023/7/19

start_page = int(input('请输入起始页码'))end_page = int(input('请输入结束页码'))data = {'cname' :'运城',

2023-07-23 22:06:59 614

原创爬虫学习Day12 2023/7/18

我们通过inspect我们可以发现一页是二十部电影的内容，limit就是一页的限制数量，start是开始电影的序号。start_page = int(input('请输入起始页码'))end_page = int(input('请输入结束页码'))通过观察不同页码的Url，

2023-07-23 21:57:32 594

原创爬虫学习Day11 2023/7/17

今天完成豆瓣前N页电影排行的爬取，内容较多，两天一结=v=。内容于2023/7/18呈现。

2023-07-23 21:37:29 568

原创爬虫学习Day10 2023/7/14

因为这个是get请求方式，所以不用定制data，也不用json，相比之下方便许多。

2023-07-17 22:48:30 582

原创爬虫学习Day9 2023/7/13

今天练习豆瓣电影排行爬取，内容较多，内容于Day10呈现。

2023-07-17 22:39:43 46

原创爬虫学习Day8 2023/7/12

这里需要注意的是data变多了，且headers不能是UA了，必须是Cookie。今天练习了访问详细翻译。

2023-07-17 22:38:07 624 1

原创爬虫学习Day6 2023/7/10

今天进行爬虫的post请求小实践，由于内容有点点复杂，和明天放在一起。内容由Day7呈现

2023-07-17 22:25:23 63

原创爬虫学习Day7 2023/7/11

需要注意的是post请求的参数必须要进行编码，编码后需要调用encode方法‘data = urllib.parse.urlencode(data).encode('utf-8')’即这一步。在百度翻译网页右键点开inspect，找到有效数据，复制url，访问方式为post，所以要自己定制request，最后用json。练习内容为用python访问百度翻译，得到目标信息。

2023-07-17 22:24:01 539 1

原创爬虫学习Day5 2023/7/8

今天看了一些前端的东西，迷迷糊糊的，奇奇怪怪的..........英语有待提高确实是。

2023-07-09 22:04:25 63

原创爬虫学习Day4 2023/7/7

post请求所需要的数据不会拼接在url后，而是在定制请求对象的参数中输入，比如urllib.request.Request(url=,data=,headers=).encode('utf-8')。后面的encode是因为post请求的方式的参数必须编码。今天生日，就这些可以吧，手动狗头。

2023-07-09 21:59:05 562

原创爬虫学习Day3 2023/7/6

这个编码表被称为ASCII编码，比如大写字母A的编码是65，小写字母z的编码是122。你可以想得到的是，全世界有上百种语言，日本把日文编到shift JIS里，韩国把韩文编到Euc-kr里各国有各国的标准，就会不可避免地出现冲突，结果就是，在多语言混合的文本中，显示出来会有乱码.因此，Unicode应运而生，Unicode把所有语言都统一到一套编码里，这样就不会再有乱码问题了Unicode标准也在不断发展，但最常用的是用两个字节表示一个字符(如果要用到非常偏僻的字符就需要4个字节)也了解了编码集的演变。

2023-07-09 21:40:06 31

原创爬虫学习Day2 2023/7/5

request=urllib.request.Request(url=,headers=),urllib.request.urlopen(request)前为定制，后为网页打开。UA即user agent，它是一个特殊字符串头，使得服务器能够识别客户使用的操作系统及版本、CPU 类型、浏览器及版本。浏览器内核、浏览器渲染引擎、浏览器语言、浏览器插件等。url（网址）有协议、主机、端口号、路径、参数、锚点组成。常见的http、https就是协议，点后的（如baidu）为主机，其他几部分一般看不见。

2023-07-09 18:50:47 56

原创爬虫学习Day1 2023/7/4

是行,<tr>和与

2023-07-04 23:18:45 36

原创 Python基础学习Day6 2023/7/2

使用时需要先import JSON，json.dumps(list)，也可以json.dump(list,fp)。这里的fp类似于指针，‘w’的含义是write，即可以编写，但需要注意的是，编写时会先清空打开的文件夹。‘a’的含义是append，即追加，这个就可以往文件夹中加入内容。定义函数用def进行def f1（），括号里可以放形参，在使用时加入实参即可进行函数运算，返回值用return。定义在函数内部的为局部变量，定义在函数外的为全局变量。今天学了函数的一系列知识点，文件的打开，序列化反序列化。

2023-07-02 20:00:31 44 1

原创 Python基础学习Day5 2023/7/1

今天帮忙搬家搬了一天，累闷了，学不了一点，QAQ，明天没啥事，学6、7个钟补回来。

2023-07-01 23:18:18 76

原创 Python基础学习Day4 2023/6/30

遍历可以得到三种结果，一种.keys，得到的就是keys，一种是value，得到的就是value，一种是items，得到的是所有项目。如果删除了字典，那么其将完全不存在。如果要查看元素，有两种方法：方法一、print（info【‘name’】）方法二、print（info.get（‘name’））如果查找的元素不存在，那么会返回None。昨天元组的内容忘了总结，元组是无法改变的列表，在输入元组值时，如果元组只有一个元素，那么必须在元素后加一个逗号，不然的话该元组的类型会变为int，加了逗号后就会正常。

2023-06-30 23:58:32 39

原创 Python基础学习Day3 2023/6/29

其中有一个range，range（i）执行的是【0，i），是一个左闭右开区间，range（1，6）则是【1，6）。for i in range（1，10，3）执行的结果则是1，4，7。if这玩意Python里的作用跟C语言里的作用差不多，判断条件是否符合，符合执行之后的语句，不符合则跳过。elif看着倒是个新东西，但其实也就是else+if，第一个if条件不符合就判断elseif的条件，以此类推执行程序。find查找指定内容在字符串中是否存在，如果存在，返回该内容在字符串中第一次出现的位置（从0开始）；

2023-06-29 23:19:30 26

原创 Python基础学习 Day2 2023/6/28

Python中变量的类型有int（整形）、float（浮点型）、complex（复数）、Boolean（布尔）、string（字符串）、list（列表）、tuple（元组）、dict（字典）。没有了C语言中的long、double等，而且Python中的变量不用赋值，因为Python会自己检测类型赋予内存，还是蛮方便的，之前学C的时候经常写着写着在前面补变量，很麻烦，而且会打乱思路。赋值运算符，也就是=没啥好说的，就赋值呗，唯一需要注意的点是d,e,f=3,4,5 是成立的，等价于d=3、e=4、f=5。

2023-06-28 23:54:28 27

原创 Python基础学习 Day1 2023/6/27

其中第一二中都难以保存python代码，故一般使用IDE进行python运行，如果不用IDE，可以在桌面上新建txt文档，修改后缀为.py进行可保存编程，如果需要运行可在cmd中输入python+文件路径（可通过拖动文件实现快速输入）运行。我选择了Pycharm作为我使用python的IDE，完成了Pycharm的设置，大致了解了Pycharm的使用方式以及界面的作用。还了解了pip的使用，pip是Python包的管理工具，可以在cmd中输入pip list显示已安装的Python包；

2023-06-27 23:59:21 60

原创暑假实践项目报告

税务业务分为企业税、海关税、间接税、个税等，并可根据不同客户细分不同业务小组（比如专门对接金融业客户的金融服务组，和对接通用行业的企业税组专做个税咨询的个税组等）。年度财务报表审计（涉及和税务部门的合合作)、中期审计（涉及和税务部门的合作）、IPO审计（涉及和税务部门的合作）、清算审计、尽职调查、各种专项审计等等。：通过python实现一些基础算法（例如搜索（线性和二分查找）、排序（冒泡排序、选择排序）、递归函数（阶乘、斐波那契数列）、时间复杂度（线性、二次和常量）；：完成抖音视频、评论的爬取；

2023-06-25 22:13:59 45 2

2301_78772854的博客