- 博客(21)
- 收藏
- 关注
原创 Python爬虫【十】数据存储2-自动化办公
Python爬虫【九】数据存储2-自动化办公1、合并文件2、统计数据3、发送邮件1、合并文件# 读取前五天的销售数据,汇总到一个文件中import csvfilenames = ['2019-12-%02d-销售数据.csv' % (i+1) for i in range(5)]with open('12月销售数据汇总.csv', 'w', newline='') as file: csv_writer = csv.writer(file) for filename in f
2021-10-20 15:18:00 425
原创 Python爬虫【九】数据存储1-openpyxl
Python爬虫【九】数据存储1-openpyxl1、Excel文件2、CSV文件1、Excel文件Excel文件又称工作簿(workbook),每个工作簿中可以新建多个工作表(worksheet),每个工作表又有很多个单元格组成,每个单元格通过列和行来定位。主要概念:文件名、工作表、单元格。通过openpyxl模块操作Excel文件,openpyxl是第三方模块,安装:pip install openpyxlExcel文件写入的步骤:(1)创建工作簿 wb = openpyxl.Workbo
2021-10-19 17:23:32 616
原创 Python爬虫【八】动态网页爬虫4-爬虫实战
Python爬虫【八】动态网页爬虫4-爬虫实战1、编程思维2、实战:自动发微博3、爬虫注意点1、编程思维(1)问题分解:把现实生活中的复杂问题,逐步拆分成容易解决的小问题;(2)模式识别:根据已有的知识和经验,找出新问题和以前解决过的问题的相似性;(3)抽象思维:将问题里涉及的数据抽象到数据结构(变量、列表、字典等),把数据处理过程可重复执行部分抽象成函数;(4)算法设计:根据前三步的分析成果,设计步骤,写出算法,从而解决问题。2、实战:自动发微博发微博–登录微博、发送微博,用面向对象的方法重
2021-10-18 15:47:38 248
原创 Python爬虫【七】动态网页爬虫3-selenium
Python爬虫【七】动态网页爬虫3-selenium1、selenium2、打开浏览器、获取数据3、1、seleniumselenium是浏览器自动化测试框架,被用于网页测试;但到了爬虫领域,又成为了爬虫的好帮手。selenium可以控制浏览器,模仿人浏览网页,从而获取数据,自动操作等。安装selenium:pip install selenium安装对应的浏览器驱动:(1)查看浏览器版本:打开Chrome浏览器,点击浏览器右上角的三个点-帮助-关于Google Chrome(2)谷歌
2021-10-18 10:11:53 320
原创 Python爬虫【六】动态网页爬虫2-cookie
cookiecookie 是浏览器存储在用户电脑上的一小段文本文件。该文件里存了加密后的用户信息,过期时间等,且每次请求都会带上 cookie。cookie 就像一张通行证,只有拥有通行证且通行证未过期时,服务器才会放行:cookie 的作用不仅仅是用于判断你是否登录了账号,还常被用于记录你的操作行为、浏览记录等。session有了cookie之后,可以将一些信息存到其中,比如用户身份信息等。但cookie 容量有限,只有 4KB,所以不可能将所有的用户信息都存到里面。这时候,sessi.
2021-10-15 15:06:08 678
原创 Python爬虫【五】动态网页爬虫1-API
Network面板Network 记录的是从打开浏览器的开发者工具到网页加载完毕之间的所有请求。Network面板常用功能:(1)清空按钮Clear:用于清空请求列表(2)保留记录Preserve Log:勾选后会保留请求记录,常用于发生页面跳转时保留前一个页面的所有请求记录(3)请求类型过滤器:ALL表示查看全部,点击其他的只会展示对应类型的请求。爬虫中常用的有ALL、XHR、Img、Media名称含义All全部类型XHRXMLHttpRequest类型.
2021-10-15 10:05:51 1257
原创 Python爬虫【四】静态网页爬虫2-反爬虫
反爬虫反爬虫是网站限制爬虫的一种策略。它并不是禁止爬虫(完全禁止爬虫几乎不可能,也可能误伤正常用户),而是限制爬虫,让爬虫在网站可接受的范围内爬取数据,不至于导致网站瘫痪无法运行。常见的反爬虫方式有 判别身份 和 IP限制 两种判别身份浏览器\爬虫访问网站时都会带上一些信息用于身份识别,这些信息都被存储在一个叫请求头(Request Headers)的地方。查看请求头的步骤:(1)点击Network标签(里面记录了所有网络请求)(2)点击第一个请求(3)找到Request Head.
2021-10-14 10:35:15 276
原创 接口【一】Jmeter接口测试总结
JmeterApache组织开发的基于Java的压力测试工具。单个接口测试(1)添加线程组:测试计划右键>添加>线程(用户)>线程组(2)添加http请求:线程组右键>添加>取样器>http请求(3)添加断言:http请求右键>添加>断言>响应断言、json断言、大小断言(4)查看请求结果:线程组右键>添加>监听器>查看结果树、断言结果、聚合报告...
2021-08-10 20:27:37 178
原创 软件测试 【一】Git 基本用法&常用命令
什么是Git?Git是目前世界上最先进的分布式版本控制系统本地初始化D盘创建一个文件夹gitspace,进入gitspace,右键点击“git base here”。基础配置git config --global user.name "wh***"git config --global user.email "***@qq.com"git init 初始化git clone https://gitee.com/***/test.git 克隆ls cd test/ls.
2021-08-10 02:04:22 529
原创 Python Selenium【一】概念&等待方式&退出方式&元素定位方法
SeleniumSelenium是一个web应用程序的自动化测试工具;selenium测试直接运行在浏览器中,就像真正的用户在操作一样。功能:(1) 测试与浏览器的兼容性(2) 测试系统功能三种等待方式(1)强制等待不管网页是否加载完成,程序都要等待指定时间才能执行下一步。import time 引用time模块time.sleep(10) 强制等待10秒(2)隐性等待(全局等待)——对整个driver(驱动程序)的周期都起作用,只需设置一次设置一个最长等待时间,如果在.
2021-08-09 01:40:48 359
原创 Linux【二】禅道&svn&jdk&Tomcat&Nginx&docker&mysql&redis概念
禅道(1)禅道是国产开源项目管理软件,其核心管理思想基于敏捷项目管理方法—Scrum。(2)Scrum:Scrum方法注重实效,操作性强,非常适合软件研发项目的快速迭代开发。人员架构:scrum由product owner(产品经理)、scrum master(项目经理)和team(研发团队)组成。迭代开发:与瀑布不同,scrum将产品的开发分解为若干个小sprint(迭代),其周期从1周到4周不等,但不会超过4周。参与的团队成员一般是5到9人。每期迭代要完成的user story(用户故事.
2021-08-04 01:53:54 453
原创 Python爬虫【三】静态网页爬虫1-BeautifulSoup
BeautifulSoup库pip install beautifulsoup4通过定位html标签来格式化和组织复杂的网页源代码,用简单易用的python对象来展示出html结构信息。解析数据import requestsfrom bs4 import BeautifulSoupheaders = { 'user-agent': 'Mozilla/5.0 (Macintosh; Intel Mac OS X 10_13_6) AppleWebKit/537.36 (KHTML,.
2021-08-03 02:03:27 238
原创 Python爬虫【二】认识爬虫
爬虫的工作原理(1) 获取数据打开网站:爬虫(寻找网站服务器)> 请求 > 服务器(返回网站内容) > 响应 > 爬虫(2) 处理数据(爬虫)(3) 存储数据(爬虫)requests获取数据(1)请求 > 服务器 > (2)响应 > res=requests.get('网站地址') > (3)将响应结果存到变量res中response对象的常用属性response.status_code 响应的http状态码response..
2021-08-01 04:38:53 247
原创 Python爬虫【一】requests库
requests安装(1)requests的中文文档页面https://requests.kennethreitz.org/zh_CN/latest/(2)将下载的tar.gz包解压,放到Python安装目录下的lib包内(3)Win+R打开cmd命令提示符,输入pip install requests如何找到Python的安装目录(1)Win+R打开cmd命令提示符,输入where python,找到电脑中已经安装的Python位置where python(2)打开路径,.
2021-08-01 03:43:08 221
原创 Linux【一】常用命令
切换目录:cd显示当前路径:pwd显示当前目录下的文件或目录:ls创建目录:mkdir创建文件:touch编辑文件:vi/vim删除:rm复制:cp移动:mv打包解压权限管道:|杀死进程:kill查找:find查看动态:top显示内存:free磁盘:df显示网络状态:netstat链接查看文件内容上传下载:rzsz软件包管理器:yum用户&组...
2021-07-29 20:19:34 128
原创 Web前端开发【六】jQuery总结
1. 如果我们把“JavaScript”看成是“原料”,则“JavaScript库”可以看成是用原料做成的“半成品”,而程序用到的功能或特效就是“成品”。2. jQuery的特点:代码简洁完美兼容轻量级强大的选择器完善的Ajax丰富的插件3. 安装(引入)jQuery:...
2021-06-11 16:54:03 128
原创 Web前端开发【五】JavaScript总结
1. JavaScript,就是我们通常所说的JS。这是一种嵌入到HTML页面中的编程语言,由浏览器一边解释一边执行。2.JavaScript与Java的区别:JavaScript往往都是网页中使用,而Java却可以在软件、网页、手机APP等各个领域中使用;从本质上讲,Java是一门面向对象的语言,而JavaScript更像是一门函数式编程语言。3. JavaScript引入方式:(1)外部JavaScript(2)内部JavaScript(3)元素事件JavaScript..
2021-06-08 21:22:49 525 1
原创 Web前端开发【四】CSS总结
1. CSS,指的是“Cascading Style Sheet(层叠样式表)”,是用来控制网页外观的一门技术。2. CSS引入方式:外部样式表<link rel="stylesheet" type="text/css" href="文件路径" />内部样式表<style type="text/css"> …… </style>行内样式表说明:内部样式表的CSS是在“style标签”内定义的,而行内样式表的CSS是在“标签的style属性”中定义的。3.元
2021-06-08 17:42:29 223
原创 Web前端开发【三】HTML总结
1. HTML是网页的结构,CSS是网页的外观,JavaScript是网页的行为。2. 前端的学习路线:HTML——CSS——JavaScript——jQuery——CSS3——HTML5——Vue.js3. 什么是HTML?HTML全称是Hyper Text Markup Language(超文本标记语言),它是网页的标准语言。HTML并不是一门编程语言,而是一门描述性的标记语言。4. HTML结构一个页面是由四个部分组成的,一个文档声明、一个html标签对、一个head标签对、一个body
2021-06-04 14:14:06 404 1
原创 Web前端开发【二】编程题(浩云科技面试)
1.实现,下面布局:A,B,C每个标签100像素宽,100像素高,并排排列,标签D300像素宽,100像素高,另起一行排列。2.3.4.实现三栏布局,可以左侧和右侧宽度为100px,中间内容会窗口大小适配。5.说出防抖(dobounce)和节流(throttle)函数作用,并分别用函数实现。...
2021-05-30 10:57:11 465
原创 Web前端开发【一】概念
HTML:超文本标记语言CSS:叠层样式表JavaScript:编程语言jQuery:HTML5:CSS3:XML:JSON:Ajax:异步的JavaScript和XML
2021-05-30 01:31:50 139
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人