![](https://img-blog.csdnimg.cn/20201014180756930.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
python爬虫
codeMore++
这个作者很懒,什么都没留下…
展开
-
python中的编码问题
昨天写了第一个定向爬虫,然后爬了一些妹子的图片,然后今天想着爬部小说试试看,然后就暴露了一些问题。就是编码以及转换的问题。首先是找到目标网站,找准目标后,写好代码准备先爬一章试试看。#-*-coding:utf8-*-import reimport requestsurl = 'http://www.biqiuge.com/book/4772/2940354.html'# hea = ...原创 2018-04-07 22:56:13 · 492 阅读 · 0 评论 -
爬虫的一些基本知识(1)
完成一个爬虫的制作的基本过程分析需求:就是我们需要在网页中爬取什么内容。分析网站:根据需求在网站上找到相应的资源。获取源码:requests包来获取,注意返回的response的各个属性的类型、编码。匹配资源:用正则表达式匹配目的资源的url。存储资源:将获取的资源以正确的格式存放。 2. 与爬虫有关的基础知识正则表达式正则表达式的基本符号^ :必须以 ^ 之后的字符为开头,如 ^a 表示必须...原创 2018-04-07 00:20:36 · 297 阅读 · 0 评论 -
Scrapy学习笔记(1) --Scrapy的介绍
一、Scrapy简介 Scrapy,Python开发的一个快速(基于异步处理框架Twisted)、高层次的屏幕抓取和web抓取框架,用于抓取web站点并从页面中提取结构化的数据。Scrapy用途广泛,可以用于数据挖掘、监测和自动化测试。二、Scrapy的构成 Scrapy主要由以下组件组成: Scheduler:url调度器,接收来自Scrapy En...原创 2018-07-29 10:10:50 · 288 阅读 · 0 评论 -
python3安装beautifulsoup一直出错
想写个爬虫脚本,安装beautifulsoup的时候一直出错,报错信息是SyntaxError: Missing parentheses in call to ‘print’. Did you mean print(“Unit tests have failed!”)?Command “python setup.py egg_info” failed with error code 1 in ...原创 2018-09-23 11:39:53 · 4608 阅读 · 6 评论