自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+

旧人小表弟的博客 - 无业游民学习笔记

只是用来记录乱七八糟的笔记 - 记性不好 随时失忆 - 业余小学生一枚 偶尔写几行

  • 博客(11)
  • 收藏
  • 关注

原创 Python爬虫:整理selenium经常遇到的一些坑,无法定位元素、网站反爬虫监测、请求头、页面滚动,你要的可能都在这里 - 旧人笔记

selenium这种模拟浏览器的操作,虽然简单,但是代码量大,非常繁琐,且在使用过程中会遇到各种坑,不像请求接口,直接发get、post包就行了!无法定位元素页面元素还没加载出来frame/iframe二次定位 如:弹出框登录不可见元素绕过网站监测添加请求头页面滚动...

2020-10-19 18:03:33 3344 1

原创 selenium爬虫案例

爬拉勾网以前看视频教程的练习例子,现在应该用不了了使用requests 数据请求爬取import requestsfrom lxml import etreeimport timeimport reheaders = { 'Referer': 'https://www.lagou.com/jobs/list_python?city=%E5%85%A8%E5%9B%BD&cl=' 'false&fromSearch=true&la

2020-10-18 16:50:54 817 1

原创 Python爬虫,使用selenium爬取动态生成的网页数据 - 旧人笔记 - 旧人学习笔记 - 爬虫笔记 - 网络爬虫大白话

什么是AJAXAJAX(Asynchronouse JavaScript And XML)异步JavaScript和XML,在后台与服务器进行少量数据交换,Ajax可以使网页实现异步更新。这意味着可以在不重新加载整个网页的情况下,对网页的某部分进行更新。传统的网页(不使用Ajax)如果需要更新内容,必须重载整个网页页面。因为传统的在传输数据格式方面,使用的是XML语法,因此叫做AJAX,其实现在数据交互基本上都是使用JSON,很少使用XML了。使用AJAX加载的数据,即使执行了JS代码 将数据渲染到了

2020-10-17 20:04:38 1730 2

原创 xpath补充:lxml.etree常用方法,使用selenium、xpath定位不到标签时处理办法

获取属性的值和标签中的文本有时候不能直接定位到标签的属性,需要首先定位到webelement,之后get到属性try: temp['host_url'] = node.find_element_by_xpath('./div/div/div/ytd-video-meta-block/div/div/div/yt-formatted-string/a/@href') temp['host_url'] = node.find_element_by_xpath('./div/div/div/ytd

2020-10-16 23:28:46 2145 1

原创 Python多线程,大杂烩

搞任何编程语言肯定都离不开多线程,Python肯定也不例外,虽然Python的多线程并不完美,但还是经常会用到滴,尤其是网络爬虫这些东西,效率很很重要,所以我就屁颠屁颠的来写这篇文章啦!多线程是为了同步完成多项任务,通过提高资源使用效率来提高系统的效率,线程是在同一时间需要完成多项任务的时候实现的。多线程就像火车的每一节车厢,而进程则是火车,车厢离开火车是无法跑动的,火车可以有多节车厢,多线程的出现就是为了提高效率,同时使用它也会带来了一些问题。threading模块threading模块是py

2020-10-13 20:45:15 371 1

原创 数据存储:Python对MongoDB数据库操作

MongoDB是一个基于分布式文件存储的NoSQL数据库(非关系型数据库),在处理海量数据的对候会比MySQL(关系型数据库)更有优势。下载地址:https://www.mongodb.com/try/download/community下载后下一步下一步安装即可,安装目录最好不要有中文或特殊字符安装过程中 勾选Install MongoDB Compass这个选项,可以同时安装一个类似navicat的可视化工具运行MongoDB1、创建数据目录启动MongoDB之前,要先指定一个数据存储的

2020-10-11 21:09:35 587

原创 数据存储:Python对MySQL数据库操作

安装mysql官网下载地址:https://dev.mysql.com/downloads/windows/installer/5.7.html如果提示没有.NET Framework框架,在提示框中找到下载链接,下载一个就可以了。如果提示没有Microsoft Virtual C++ x64(x86),百度或谷歌一下这个软件,安装即可。navicatnavicat是一个操作mysql数据库非常方便的可视化软件,使用它操作数据库,就像excel一样的简单。安装驱动程序Python要想操作MyS

2020-10-11 19:19:18 199

原创 Python对Excel文件进行读取

import xlrddef xl_read(): """Excel读取""" book = xlrd.open_workbook('producct.xls') # 打开一个Excel文件,获取到句柄 for sheet in book.sheets(): # book.sheets()是获取所有的工作簿标签 print(sheet.name) # sheet.name是工作簿的名称,名称不能有多余的符号def xl_read_data():

2020-10-11 17:03:08 864 1

原创 数据存储:CSV文件读取和存储

import csv读取CSV文件1、csv.reader() 返回列表 通过下标方式获详细内容def read_csv_demo1(): """返回列表_通过下标方式获详细内容""" with open(r'C:\Users\Administrator\Desktop\classroom1.csv') as f: reader = csv.reader(f) # 把文件指针传给csv.reader()方法并赋值给reader,返回一个迭代器 #

2020-10-11 16:33:10 1000 2

原创 关于Python的编码,字符串、bytes字节之间的转换,计算机文本文件的编码

字符串二进制编码代码点对应的字符print(ord('A')) # 65print(chr(104)) # hprint(chr(202)) # Êprint(ord('Ê')) # 202print(ord('我')) # 25105print(chr(25105))编码转换 内置的方法:str.encode(‘编码’) 、 bytes.decode(‘解码’)字节和字符串之间转换s1 = 'ABCD'print(s1.encode('ASCII'))# 结

2020-10-01 17:28:36 1590

原创 数据存储:json和文件存储时 一些编码问题

JSON(JavaScript Object Notation, JS 对象标记) 是一种轻量级的数据交换格式。它基于 ECMAScript (w3c制定的js规范)的一个子集,采用完全独立于编程语言的文本格式来存储和表示数据。简洁和清晰的层次结构使得 JSON 成为理想的数据交换语言。 易于人阅读和编写,同时也易于机器解析和生成,并有效地提升网络传输效率。上面一大段话可以简单理解为:json就是JavaScript的一种衍生,用JavaScript的对象、数组来包含一系列的内容。JSON支持数据格式:

2020-10-01 16:03:24 2671

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除