Python爬虫入门教程
文章平均质量分 70
个人随心记得一些爬虫教程
小牛牛先生
要是不能把握时机,就要终身蹭蹬,一事无成!
展开
-
网络请求与数据提取-urllib库
关于网络爬虫,其实就是模拟浏览器向网站服务器发送请求,然后从响应的结果中提取出需要的数据。那么,该如何实现这一流程了?对于初学者来说,可能都不知道该如何入手,学习爬虫时需不需要了解HTTP、TCP、IP 层的网络传输通信和知道服务器的响应和应答原理,以及请求的这个数据结构需要自己实现吗,等等一系列问题产生疑惑。不用担心,Python的强大之处就是提供了功能齐全的类库来帮助我们完成这些请求。最基础的 HTTP 库有 urllib、httplib2、requests、treq 等。原创 2022-12-17 22:45:53 · 1078 阅读 · 0 评论 -
Ajax请求原理与数据抓取
Ajax 的全称为 Asynchronous JavaScript and XML,即异步的 JavaScript 和 XML,它不是新的编 程语言,而是一种使用现有标准的新方法,它可以在不重新加载整个页面的情况下与服务器交换数据并更新部分网页的数据。在 W3School 网站上也有几个关于 Ajax 的小实例,有兴趣的读者可以打开网址 http://www.w3school.com.cn/tiy/t.asp?f=ajax_get 去体验一下。原创 2022-12-17 22:12:24 · 3561 阅读 · 0 评论 -
NumPy 的使用
NumPy(Numerical Python)是Python 语言的一个扩展程序库,支持大量的维度数组与矩阵运算,同时也针对数组运算提供大量的数学函数库。NumPy 的前身 Numeric 最早由 Jim Hugunin 与其他协作者共同开发,2005 年,Travis Oliphant 在 Numeric 中结合了另一个同性质的程序库 Numarray 的特色,并加入了其他扩展而开发了 NumPy。同时,NumPy 作为开放源代码由许多协作者共同维护开发。原创 2022-12-14 23:29:10 · 706 阅读 · 0 评论 -
获取指定经纬度省市区
【代码】获取指定经纬度省市区。原创 2022-10-08 13:57:38 · 376 阅读 · 0 评论 -
Python playwright自动化入门
简介 Playwright是微软开源的一个UI自动化测试工具。添加了默认等待时间增加脚本稳定性,并提供录制、网络请求支持、自定义的定位器、自带调试器等新特性。优势(1)支持同步和异步(2)安装简单,不需要单独下载浏览器驱动(3)新增了文字定位元素,同时也兼容支持传统的css和xpath定位(4)支持无头浏览器模式(5)通过录制功能自动生成代码,将生成的代码进行简单的修改就可以实现业务自动化1.安装环境要求:在Python中要使用Playwright直接用pip命令安装即可,pip命令如下:这些命令下载原创 2022-06-21 15:46:53 · 3805 阅读 · 2 评论 -
大众点评网根据关键词和城市id返回搜索结果-爬虫源码示例
# -*- coding: utf-8 -*-import requestsimport refrom fontTools.ttLib import TTFontfrom lxml import etreeimport urllib.parse'''获取字体文件下载连接'''def get_woffs_url(data): svgtextcss = re.findall(r'href="([^"]+svgtextcss[^"]+)"', data)[0] woffs_url.原创 2021-06-28 11:20:55 · 1690 阅读 · 0 评论