浩然丶-CSDN博客

原创 Python爬虫学习（八）Scrapy爬虫基本流程

（八）Scrapy爬虫基本流程(1)步骤1建立工程和Spider模板建立工程>scrapy startproject project_name打开工程文件夹>cd project_name建立Spider模板>scrapy genspider spider_name crawl_website(2)步骤2编写Spider配置spider_n...

2020-04-23 14:48:26 257

原创 Scrapy爬虫框架初探

（七）Scrapy爬虫的基本使用(1)Scrapy爬虫的使用步骤步骤1：创建一个工程和Spider模板步骤2：编写Spider步骤3：编写Item Pipeline步骤4：优化配置策略(2)Scrapy爬虫的数据类型1.Request类class scrapy.http.Request()#Requests对象表示一个HTTP请求#由Spider生成，由Downloader执行...

2020-04-23 11:11:15 150

原创 Python爬虫学习（七）Scrapy爬虫框架详解

（六）Scrapy爬虫框架(1)Scrapy爬虫框架结构Scrapy不是一个函数功能库，而是一个爬虫框架爬虫框架是实现爬虫功能的一个软件结构和功能组件集合爬虫框架是一个半成品，能够帮助用户实现专业网络爬虫看结构：分布式、“5+2”结构看流程：数据流1.数据流的路径Engine从Spider处获得爬取请求（Request）Engine将爬取请求转发给Scheduler，...

2020-04-23 09:00:00 214

原创基于bs4库和re库的天天基金网python爬虫

花了一晚上的时间调试，练习，终于把这个程序改动好了通过这个更熟悉了BeautifulSoup库的用法，也练习了正则表达式的使用import requestsfrom bs4 import BeautifulSoupimport bs4import tracebackimport redef getHTMLText(url, code="utf-8"): try: ...

2020-04-22 22:51:34 427

原创基于requests库和re库的淘宝商品网络爬虫

用python爬取淘宝网指定商品资料/仅学习算法实现用import requestsimport redef getHTMLText(url): try: Headers = { 'User-Agent': 'Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, li...

2020-04-22 19:06:57 156

原创 Python爬虫学习（六）Re正则表示式库的入门

（六）Re(正则表达式)库入门(1)基本定义正则表达式 regular expression， regex， RE 正则表达式是用来简洁表达一组字符串的表达式正则表达式是一种针对字符串表达“简洁”和“特征”的思想的工具正则表达式可以用来判断某字符串的特征归属(2)作用表达文本类型的特征（病毒、入侵等）同时查找或替换一组字符串匹配字符串的全部或部分（最主要的应用）...

2020-04-22 14:31:49 137

原创基于requests库和BeautifulSoup库的大学排名网络爬虫

用requests库和BeautifulSoup库爬取“最好大学网”中的大学排名信息。代码如下：import requestsfrom bs4 import BeautifulSoupimport bs4def getHTMLText(url): try: Headers = { 'User-Agent': 'Mozilla/5.0...

2020-04-21 15:13:20 291

原创 Python爬虫学习（五）基于bs4库的HTML内容检索

（五）基于bs4库的HTML内容检索(1)信息的标记标记后的信息可形成信息组织结构，增加了信息维度标记的结构和信息一样具有重要价值标记后的信息可用于通信、存储或展示标记后的信息更利于程序理解和运用例：HTML是WWW（World Wide Web）的信息组织方式 HTML通过预定义的<>…</>标签形式组织不同类型的信息(...

2020-04-20 14:55:04 246

原创 JAVA·用JAR包生成EXE文件(exe4j软件)

exe4j软件的基本使用方法需求：前提：我们写好了实现某一功能的源代码；现在需要利用我们写好的.java文件生成一个.exe文件，供用户使用；用户不需要安装编程环境；用户如果想要使用你所实现的功能，直接运行你生成的.exe文件即可。需要用到的工具： eclipse软件 exe4j软件解决方案：总体目标：生成.exe文件使用代码实现的功能第一步：利用ecl...

2020-04-15 14:42:50 257

原创 Python爬虫学习（四）Beautiful Soup库入门

（四）Beautiful Soup库入门BeautifulSoup库官方文档(1) Beautiful Soup库基本元素 Beautiful Soup库是解析、遍历、维护“标签树”的功能库<p class="title">...</p><p>..</p> :标签 Tag p :名称 Name （成对出现）class='ti...

2020-04-14 19:22:10 216 1

原创 Python爬虫学习（二）盗亦有道（三）Requests库网络爬取实战

（二）网络爬虫的盗亦有道(1)网络爬虫的限制来源审查：检查来访HTTP协议头的User-Agent域发布公告：Robots协议 —— 网站根目录下的robots.txt文件（三）Requests库网络爬取实战(1)京东商品页面的爬取import requestsdef getHTMLText(url): try: Headers = { ...

2020-04-13 15:24:44 230

原创 Python爬虫学习（一）Requests库入门

（一）Requests库入门(1)HTTP协议#HTTP 超文本传输协议#HTTP是一种基于“请求与响应”模式的、无状态的应用层协议#HTTP采用URL作为定位网络资源的标识，一个URL对应一个数据资源-------------------------------http：//host[:post][path]host:合法的Internet主机域名或IP地址port：端口号，缺省...

2020-04-13 15:22:29 203 2

qq_39419113的博客