- 博客(18)
- 收藏
- 关注
原创 Beautiful Soup爬虫
之前使用过XPath爬虫、正则表达式爬虫获取我们想要的内容,Beautiful Soup也是一种爬虫,解析HTML/XML文档,但是使用方法会比之前的简单。
2022-08-16 00:26:28 1822
原创 模拟浏览器
User-Agent:用户代理,网站的服务器通过识别UA(User-Agent)来确认用户使用的操作系统、浏览器内核等信息,因为有了这些信息说明用户是通过浏览器进行访问的,而不是爬虫进行爬取,因此通过UA识别就是反爬的一种手段。...
2022-08-12 11:19:33 1158
原创 python正则表达式
正则表达式:正则表达式是一种文本模式,就像数学表达式a+b*c一样,有普通字符和特殊字符两种。:使用正则表达式,可以用一个规定好的字符串描述、匹配其他的字符串。
2022-08-10 17:55:49 1073
原创 XML基础
XML是一种很像HTML的标记语言,有标签这种东西,在标签内部放置不同的内容,XML用来存储、传输数据,并且在不同的设备、不同的系统中都可以使用。
2022-08-07 18:19:17 304
原创 HTTP协议
浏览器读取到首页的HTML源码,首先解析HTML显示页面,然后根据里面的链接再次发送HTTP请求给服务器,拿取相应的图片、视频、JS、CSS等,最终显示完整的页面。
2022-08-07 11:27:49 389
原创 python初始环境配置 Anaconda/Pycharm安装
学生党一枚,年后开始学习python,在bilibili上找到下面这个课程,从基础开始,后续包括网络通信、数据库、小游戏设计、网页设计、爬虫、机器学习、人脸识别、微信小程序设计等,老师讲的很简单,跟着做,基本能做出来,每一集时间都不长,但是有些地方比较简单,因此自己还有自己的一些补充,希望自己可以随时温习并且希望有大佬能帮忙指正,就发布在这儿了~欢迎大家指正,使用到的软件以及安装包都会放在里面!!!...
2022-08-02 15:41:47 228
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人