Posierd-CSDN博客

原创合并多个 XLSX 格式的文件

import osimport pandas as pdimport xlrd# 注意这里的 xlsx 文件内容不同（如果相同的话合并干嘛）但格式是一样的 # 每个文件一个只有 sheet1 有内容其他地方空白# 在 path 下找出所有符合要求的文件def file(path): name = [] # 存放符合要求的 xlsx 文件 a = os.listdir(path) # 找出所有的文件 for b in a: if os.p

2020-10-16 17:50:45 1677

原创 04 变量补充

<!DOCTYPE html><html lang="en"><head> <meta charset="UTF-8"> <title>变量补充</title> <script> /* 1.如何给已经定义好的变量修改他的值再次给变量重新赋值 2.如果一个变量没有进行变量初始化那当中存储的是 undefined(bug

2020-07-12 15:17:49 166

原创 03 变量

<!DOCTYPE html><html lang="en"><head> <meta charset="UTF-8"> <title>变量</title> <script> /* 可以被修改的数据定义格式 var 变量名; 如何使用 1.赋值变量名 = 值;

2020-07-12 15:16:25 140

原创 02 JavaScript 的常量

<!DOCTYPE html><html lang="en"><head> <meta charset="UTF-8"> <title>JavaScript 的常量 </title> <script> /* 什么是常量固定不变的数据常量的分类 1.整形常量就是整数例 33 // 55 /

2020-07-12 15:15:18 108

原创 01 JavaScript 常见的输出

<!DOCTYPE html><html lang="en"><head> <meta charset="UTF-8"> <title>JavaScript 常见的输出</title></head><body><script> /* 1.通过弹窗的形式来输出 alert("通过弹窗的形式来输出") 一个按钮

2020-07-12 15:12:58 125

原创注释与书写

<!DOCTYPE html><html lang="en"><head> <meta charset="UTF-8"> <title>注释与书写</title>   <!-- 书写格式： 1.行内样式 1

2020-07-12 15:07:58 137

原创爬取b站视频一个新的库

import requestsimport you_getimport sysimport jsondef get_playurl(): '''获取整个页面的视频播放地址''' url = 'https://s.search.bilibili.com/cate/search?callback=jqueryCallback_bili_16350172032693622&main_ver=v3&search_type=video&view_type=hot_

2020-07-06 11:08:47 330

原创线程实践 1

import requestsfrom lxml import etreeimport threading# 单/多线程爬取当当书名不保存headers = {'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/71.0.3578.98 Safari/537.36'}urls = ['http://search.dangdang.c

2020-06-17 11:10:10 90

原创类 1

# 1 创建和使用类 /创建多个class Dog(): '''小狗的一次简单尝试''' def __init__(self,name,age): '''初始化属性''' self.name = name self.age = age def sit(self): '''一条命令''' print(self.name.title() + " 正在蹲下！") def roll(self):

2020-06-16 10:24:16 162

原创线程 1

import timeimport threadingstart_time = time.time()def one(): for i in range(0,3): print("学习1秒钟") time.sleep(1)def two(): for i in range(0,3): print("看小姐姐1分钟") time.sleep(1)def main(): '''学习线程''' #

2020-06-16 09:04:43 76

原创 bs4 提取数据保存格式 csv 总结

bs4 的数据转换 soup = BeautifulSoup(html,‘html.parser’)先使用 find_all 找出一个包含所有信息的最小父级盒子这样就得到了需要提取的全部数据此时数据类型为列表通过 for 遍历分别提取使用方法 find get_text() replace()当内容需要保存为 csv 文件时直接先在就在 for 循环上写入 with open。。。语法当分别提取得数据已经得到了f.write("{},{}

2020-06-11 09:07:51 622

原创 01

from tkinter import * # 导入# 创建窗口root = Tk()# 标题root.title("窗口名字")# 设置宽，高度单位 px 像素宽度x高度root.geometry('500x400')# 标签lable = Label(root,text="窗口内提示的字符串：")# 需要网格布局才可以显示# 网格布局lable.grid()# 输入控件entry = Entry(root,font=('微雅黑体',14)).

2020-06-11 09:05:15 101

原创哔哩哔哩后浪弹幕获取保存 csv 并制作词云

''''找出真实的弹幕列表的url保存 csv 文件制作词云图'''import reimport requestsimport csv# headers = {'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/80.0.3987.163 Safari/537.36'}# url = 'https://api.bilibili.c

2020-05-13 19:41:03 2155 4

原创瓜子二手车翻页 csv

import requestsfrom bs4 import BeautifulSoup# import io# import sys# sys.stdout = io.TextIOWrapper(sys.stdout.buffer,encoding='gb18030') # 改变标准输出的默认编码headers = { 'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTM

2020-05-10 11:16:31 477

原创肯德基门店 csv

import requestsimport pprintimport csvfor page in range(1,6): print("========正在获取{}页数据========1".format(page)) url = 'http://www.kfc.com.cn/kfccda/ashx/GetStoreList.ashx?op=keyword' h...

2020-05-08 13:09:17 230

原创有道翻译新（js破解）

'''js 解密有道翻译'''import requestsimport timeimport random # 随机数import hashlib # md5 加密# 爬虫三件套headers = { 'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (...

2020-04-23 15:22:10 512

原创拉钩翻页方法

import requests# cookie 获取url = 'https://www.lagou.com/jobs/list_python%E5%AE%9E%E4%B9%A0?oquery=python&fromSearch=true&labelWords=relative'resp_2 = requests.get(url,headers={'User-Age...

2020-04-20 13:37:12 171

原创美丽的汤 xlsx格式 csv 格式

'''美丽的汤的2种用法保存数据文件xlsx 格式文件csv 文件'''from bs4 import BeautifulSoup'''根据 class 的属性值来提取数据find_all 注意在添加 class 的值是 class 有下划线 class_="属性值"例：豆瓣top 排行榜的电影信息(目标数据在标签外) time: 2020-02-21数据转...

2020-04-17 18:17:43 166

原创机器猫

# 哆啦A梦哒哒哒import turtledef flyTo(x, y): turtle.penup() turtle.goto(x, y) turtle.pendown()def drawEye(): turtle.tracer(False) a = 2.5 for i in range(120): if ...

2020-04-11 15:40:27 477

原创酷6视频获取函数

import requestsimport jsonheaders = { 'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/80.0.3987.132 Safari/537.36'}# 网页获取def get_htm...

2020-04-09 10:32:09 117

原创淘宝信息获取（不保存）

from selenium import webdriverimport timeimport re# 输入关键字收搜获取总的页码数用于后边翻页def search_product(): # 元素定位 ——输入框搜索按钮 driver.find_element_by_xpath('//*[@id="q"]').send_keys(kw) # xapt...

2020-04-08 15:45:52 152

原创解析网电影信息获取

'''通过解析网获取电影通过操作发现在 network 控制台中文件名 .ts 结尾的文件为视频文件（也就是电影某个小片段）需要将这些全部获取下来发现这个后缀的变化规律 .ts 后数字的变化先拿当中的一个 ts 文件中的 url 来下载测试发现命名为 .ts 的格式时也是可以进行播放的为节省下载时间了解一个新的知识点进程池（内部需要创建多个来达到效果）在同一个时...

2020-04-05 13:30:53 714

原创豆瓣电子书

import requestsimport urllib.requestfrom bs4 import BeautifulSoupimport csv'''目标数据：书名作者日期价格评分评价人数'''headers = { 'user-agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/53...

2020-04-05 13:24:41 108

原创优美图库图片获取

import requestsimport parselheaders = { 'user-agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/80.0.3987.149 Safari/537.36'}name = 1def down_...

2020-04-01 14:38:43 1258

原创酷我音乐获取

import requestsheaders = { 'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/80.0.3987.149 Safari/537.36', 'Cookie': '_ga=GA1.2.466145602...

2020-04-01 13:43:45 987 5

原创我主良缘婚姻网图片获取

'''保存图片为例分析数据startage: 21 最小年龄endage: 30 最大年龄gender: 2 性别女cityid: 149 城市编号startheight: 151 身高endheight: 160 身高marry: 1 婚姻状况未婚education: 30salary: 2 薪资 kpage: 1 页码http:/...

2020-04-01 13:40:25 125

原创个人知识点总结

'''1. url headers 参数确定URL: 如果目标网址是静态的网页，那就直接确定是他遇到 ajax 异步加载需要通过 Network 中 xhr 来通过抓包获取数据例如关键字：梨视频糖堆等案例Headers: 这个不多说了2.关于请求方式我用的最多的还是 get 请求，还有一个没有怎么学到post（就pass）常...

2020-03-28 09:23:12 126

原创京东汉服

import requestsfrom bs4 import BeautifulSoupheaders = { 'user-agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/80.0.3987.132 Safari/537.36'}img...

2020-03-28 08:39:25 130

原创果壳问答——函数

import reimport jsonimport requestsheaders = { 'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/80.0.3987.132 Safari/537.36'}a = []def...

2020-03-28 08:37:11 150

原创果壳问答

import requestsimport jsonimport reheaders = { 'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/80.0.3987.132 Safari/537.36'}link = 'h...

2020-03-28 08:33:54 643

原创六房短视频获取 -函数

import requestsimport jsonimport reheaders = { 'user-agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/80.0.3987.132 Safari/537.36'}def chenk_ti...

2020-03-28 08:31:14 76

原创六房短视频获取

import requestsimport jsonimport reheaders = { 'user-agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/80.0.3987.132 Safari/537.36'}def chenk_t...

2020-03-28 08:27:12 132

原创贴吧美女图片获取

import requestsimport parselheaders = { 'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; WOW64; Trident/7.0; rv:11.0) like Gecko'}name = 1for page in range(0,4): print("\n正在获取第{}页数据".forma...

2020-03-28 08:22:09 558

原创美女手机壁纸获取

import requestsimport parselheaders = { 'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/80.0.3987.132 Safari/537.36'}num = 1for page in...

2020-03-25 09:51:52 113

原创 lol英雄皮肤图片爬取

import requestsimport json'''lol 英雄及英雄皮肤下载动态加载数据1.先获取英雄 id2.拼接关于图片 js 的 url3. 请求后将返回体进行数据转换4.此时的 js 数据（2.js） skines（键名） mainImg（图片url） name（皮肤名字）'''headers = { 'User-Agent': 'Mozilla/...

2020-03-25 09:47:33 253

原创豆瓣电子书知识点梳理

目标地址知识点梳理：''''分析豆瓣图书获取数据及保存的方法1. 网页分析1.1 . url 参数（例小说）将其 str 修改为 ASCII 编码1.2 在 import urllib.request 或 import urllib.parse 导入：例： key = "小说" key_ASCII = urllib....

2020-03-19 12:43:17 185

原创 Xpath 语法理解（parsel）

''''xpath 理解在 html / xhtml 文档信息查找信息'''import parsel # pip install parsel 进行安装# 当前为字符串类型 strhtml_str = '''<div> <ul> <li class="item_1"> <...

2020-03-19 12:28:13 1230

原创快代理ip爬取并验证

目标地址import requestsimport parselimport timedef chenk_ip(proxies_list): '''检测代理 IP 的可用性''' headers = { 'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML...

2020-03-12 13:33:26 393

原创鼠标控制01

# 信息轰炸# 控制信息 xxxxxx 发送 x 条在 xxx时间内# 控制键盘鼠标发送信息# 循环import timefrom pynput.keyboard import Controller as key_cl # as 后别名方便后面调用鼠标from pynput.mouse import Button,Controlle...

2020-03-12 13:22:42 106

原创糖堆图片获取

目标地址import requestsimport jsonimport jsonpathimport urllib'''糖堆动态加载无法直接找出翻页规律在 XHR 中向下找（页面下滑）发现 Request_URL 的参数里 start的值会一直递增 js 文件经过 js 美化后发现图片的 url 是键名为 path 的值 '''he...

2020-03-12 13:19:23 400

01注释与书写.html

空空如也