Python学习
文章平均质量分 72
是挺秃然的齐齐哦
此人不懒,什么都写了
展开
-
Scrapy框架的个人理解和总结
Scrapy作为一个强大的爬虫框架,具有强大的爬取网站和信息传输能力。Scrapy框架主要是分目录的形式,逐层对信息进行爬取。网页的目录一般分为三个。以中国新闻网为例子:https://www.chinanews.com/在新闻网的首页中,我们看到有这样的一栏。这就是一级目录。通过网页解析器,我们发现这个ul标签下麦呢有很多的li标签,而li中包含的a标签中的href属性就是对应着某个类别新闻的列表。我们随便跳转一个href,就进入了第二目录。这个网站的二级目录是属于动态网页,具体爬取的时候要原创 2021-01-18 12:22:32 · 342 阅读 · 0 评论 -
爬虫总结——(2)页面信息解析
很多时候,我们爬取了一整张页面后,我们只会截取一部分的内容。比如我可能只要页面某个栏目的图片,或者只要文章的开头。通过看网页的html内容,我们可以发现,其实其结构属于层层包含,而我们所需要的通常在,某个class或者div的目录下。因此我们就可以使用正则表达式,bs4或者xpath。先来看一下正则。正则涉及到正则表达式。大家可以来练习一下正则。#提取python key = "javapythonc++php" print( re.findall('python' , key)[0原创 2020-12-03 23:47:55 · 336 阅读 · 0 评论 -
爬虫总结——(1)request使用以及文件存储
爬虫的基本概念就是通过程序来模拟上网冲浪,通过获取整个页面的所有信息,然后用正则表达式或者bs4进行解析,部分获取信息。在python中,爬虫的很多模块已经构建好了。先来看几个最基本的概念。url:通俗来说就是要爬取的页面,但由于有些网页是动态加载的,里面的数据不一定是由显示的网址加载的,具体得看该数据的urlUA伪装:我们都基本上使用浏览器来浏览网页,UA就相当于一个浏览器的代号,有些服务器为了防止恶意爬虫,如果不使用UA伪装,会无法爬取该网站的数据数据类型:如:text , json 和 co原创 2020-12-02 22:55:01 · 635 阅读 · 0 评论 -
Python学习(2)——字符的处理
先来看看一些基础的函数 a = "AbCdeFG" #这两个函数负责把字符全部变成大写和小写 print( a.lower() + " " + a.upper()) #split函数将字符串按特定的符号切开 print( "a,b,c".split(",") ) #cout函数返回子串在主串的个数 print("an apple a day".count("a") ) #replace函数替换主串的字符 print("python".replac原创 2020-10-20 23:36:52 · 610 阅读 · 2 评论 -
Python学习(1)
(1)Python注释语法可使用单个#键:#Python。py也可以使用三个单引号作为多行注释:'''dadfdaf dasfasf dfadsfa'''原创 2020-09-29 10:52:00 · 213 阅读 · 0 评论