自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(31)
  • 收藏
  • 关注

原创 appium的一些问题

activity不是启动的activity,更换为启动页的activity就好了。adb logcat |findstr-i displayed命令获取。

2022-12-29 00:28:58 124

原创 appium

AppiumPythonClient是从selenium继承的,所以在使用方法上与selenium库类似。

2022-12-28 00:08:44 199

原创 得到APP结合mitmproxy

mitmdump可以与Python结合编写实时的爬虫,这种方式更适合抓取App的数据,而且mitmweb工具可以实现可视化监听请求...

2022-12-23 22:25:23 154

原创 爬虫笔记 for Splash

例子:利用splash Lua脚本在京东商城搜索商品,然后抓取搜索出的商品名称,以及将每一页搜索结果的截图保存为PNG格式得文件。

2022-12-19 23:03:38 243

原创 基于splash的爬虫_02

splash可以通过Lua脚本执行一系列渲染操作,这条可以使用splash模拟浏览器的操作。

2022-12-10 22:52:28 564

原创 基于splash的爬虫_01

Python可以通过HTTP API调用Splash内部的功能,与Lua代码进行交互。是一个JavaScript渲染服务,带有HTTP API的轻量级浏览器。Splash在安装在Docker上,首先要安装docker。安装Splash并启动,如果是linux加sudo。可以使用Lua语言编写代码对页面进行渲染。

2022-12-10 22:21:13 212

原创 爬虫之Selenium

运行本例之前,需要将chromedriver或chromedriver.exe文件放在当前目录的webdriver子目录中。运行程序,会立刻启动Chrome浏览器,并打开京东首页,然后在京东首页上方的搜索框中输入“Python从菜鸟到高手”WebDriverWait类,该类是为了在执行的过程中等待一段时间,这里设置为4秒。、按Enter键后,并不一定马上显示搜索结果,需要有一定的延长,但python程序不会等待搜索结果出来再往下执行,python程序会一直执行下去,所以如果不等待一定时间,就会造成pytho

2022-12-07 21:07:20 979

原创 爬虫笔记_异步数据02

京东商城图书评分会发现点击导航页的页数,url没有变化

2022-12-07 00:09:15 116

原创 爬虫笔记_异步数据01

判断数据是否通过异步方式获取如果是显示是图片的网站,把网页一直往下拉,一直加载数据显示新的图片

2022-12-06 22:34:31 188

原创 爬虫笔记_10

豆瓣电影T250保存在SQList数据库使用xpath和正则表达式PS:xpath的string(.)方法取出嵌套节点内的文本内容结果:

2022-12-05 23:14:24 100

原创 爬虫笔记_09

获取豆瓣T250音乐排行榜储存在csv文件使用BeautifulSoup和正则表达式分析HTML代码结果;

2022-12-04 23:22:26 101

原创 数据库储存 for MongoDB

非关系型数据库MongoDB是文档数据库,所有的数据以文档形式储存例如:如果要保存博客和相关的评论,使用关系型数据库,需要至少建立两个表:t_blogs和t_comments。前者用于保存博文,后者用于保存与博文相关的评论,然后通过键值将两个表关联,t_blogs和t_comments通常是一对多的关系。直接将博文以及博文下的所有评论放在一个文档中储存,也就是将相关的数据都放在一起,无须关联,查询速度更快。与关系型数据库类似,都需要先连接数据库、创建表、查询数据等只不过MongoDB数据库没有表的概率,一

2022-12-04 17:06:20 226

原创 数据库存储 for MySQL

mysql是关系型数据库以下几个函数和方法,绝大多数数据库都可以操作使用connect函数:连接数据库,根据连接的数据库类型不同,该函数的参数也不同。connect函数返回Connecting对象。cursor方法:获取操作数据库的Cursor对象。cursor方法属于Connecting对象。execute方法:用于执行sql语句,该方法属于Cursor对象。commit方法:在修改数据库后,需要调用该方法提交对数据库的修改,commit方法属于Cursor对象。rollback方法:如果修改数据库失败,

2022-12-04 12:33:23 360

原创 数据库存储 for SQList

SQList是一款开源,小巧,零配置的关系型数据库,现在运行的安卓,ios基本都是使用SQList数据库作为本地存储方案,有一些需要储存在本地的数据,虽然可以用xml,json等格式保存数据,但是不利于检索,因此将它们保存在SQList数据库中.是本地储存的最佳方案PS:在对数据进行增删改查之前,要想使用connect函数打开SQList数据库,通过cursor方法获取sqlist3.Cursor对象,通过sqlist3.Cursor对象的execute方法执行各种sql语句如果执行查询语句(select)

2022-12-03 23:57:18 200

原创 文件存储_笔记

open函数:open(文件路径,文件模式)'t'文本模式(默认,可以添加到其他模式)'+'读写模式(必须与其他模式一起使用)'b'二进制模式(可以添加到其他模式)'x'排他的写模式(只能用户写)'r' 读模式(默认)

2022-11-30 21:33:07 300

原创 爬虫笔记_08

全局排名、apple排名、华为排名、小米排名。动态html,需要找到正确的代码。

2022-11-29 23:31:40 100

原创 爬虫笔记_07

【代码】爬虫笔记_07。

2022-11-28 00:03:18 217

原创 Pyquery库_02

1)用pyquery查询节点时,如果需要指定多个样式,每个样式前面需要加点(.),而且多个样式要首尾相续,中间不能有空格。add_class方法可以向节点的class属性添加样式,remove_class可以从节点的class属性移除样式。2)添加和删除样式时,样式名不能带点(.),否则会将(.)作为样式名的一部分添加到class属性中。4)如果需要操作多个节点,add_class和remove_class方法对所有节点有效。3)添加和删除多个样式时,多个样式之间用空格分隔。如果多个样式,中间用空格隔开。

2022-11-26 21:44:05 250

原创 Pyquery库_01

运行发现报错了: 'gbk' codec can't decode byte 0xac in position 256: illegal multibyte sequence。pyquery包中包含一个PyQuery类,使用PyQuery前先导入该类,创建PyQuery类的实例。可以使用(字符串、URL、文件)来将HTML文档传入PyQuery对象。于是我把demo.html格式先处理一下,把他变成字符串的形式。尝试把demo.html里面中文改成英文,则运行成功。前面文章定义了demo.html文件。

2022-11-26 15:34:33 76

原创 爬虫笔记_06

BeautifulSoup提取信息。获取酷狗音乐抖音热歌榜前3页数据。关键信息:排名,歌手,歌名,时长。使用requests抓取。保存在excel表格。

2022-11-25 23:37:04 102

原创 爬虫笔记_05

运行之前需要手动建立一个images子目录。使用BeautifulSoup。

2022-11-25 00:25:16 108

原创 Beautiful Soup_02

soup.li.attrs['value2']或者soup.li['value2']获取的属性值是一个字符串,而xpath是列表。previous_siblings属性获得当前节点前面的所有兄弟节点(可迭代对象)节点选择器直接通过节点的名称选择节点,然后使用string属性得到节点内的文本。next_siblings属性获得当前节点后面的所有兄弟节点(可迭代对象)previous_sibling属性获得当前节点的上一个兄弟节点。next_sibling属性获得当前节点的下一个兄弟节点。

2022-11-17 23:29:12 698

原创 Beautiful Soup_01

编写一段Beautiful Soup程序。

2022-11-16 23:22:42 67

原创 爬虫笔记04

【代码】爬取起点中文网小说信息。

2022-11-16 00:29:29 241

原创 lxml与xpath_04

xpath有内置函数,position()表示当前位置,last()表示最后的位置。

2022-11-10 23:41:21 91

原创 lxml与xpath_03

以两个斜杠(//)开头的xpath规则会选取所有符合要求的节点.如果使用'//*',那么会选取整个HTML文档中所有的节点,其中星号(*)表示所有的节点.当然,'//'后面还可以跟更多的规则,如,要选取所有的节点,可以使用'//li'准备一个demo.html文件。

2022-11-07 23:00:11 192

原创 lxml与xpath_02

不同点:xml只有节点,html有节点并且有任何文本。读取并且分析html文件代码。操作html与xml类似。准备一个html文件。

2022-11-06 23:12:55 127

原创 lxml与xpath_01

读取以字符串形式出现的xml文档。读取*.xml文件代码。

2022-11-06 22:29:29 110

原创 爬虫笔记03

使用requests 爬豆瓣影评。产生数个页面URL,保存数据。

2022-11-06 00:13:59 98

原创 爬虫笔记02

使用urllib3 抓取猫眼电影TOP100榜单。调用函数,处理10页电影榜单。得到单个页面HTML。生成器,对返回值迭代。

2022-11-03 23:06:51 56

原创 爬虫笔记01

爬取小说from urllib import requestimport refrom lxml import etreeheaders={'User-Agent':'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/107.0.0.0 Safari/537.36'}def getCatelogs(url): req=request.Request(url=url

2022-11-02 09:58:49 83

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除