伽蓝の洞-CSDN博客

原创 Scrapy中提取规则的编写——xpath&css

xpath&css详解先启动一个网页scrapy shell https://.......#启动一个网址xpath用法response.xpath('//title/text()').getall()#获取所有title节点中的文本response.xpath('//title/text()').get()#获取第一个title节点中的文本response.xpath('/...

2019-12-06 15:18:19 354

原创 Scrapy框架流程

Scrapy流程Scrapy的主体流程1.新建项目 scrapy startproject xxx（项目名）2.编写item 书写爬虫要提取的内容框架3.制作爬虫 spider/xxspider.py中负责分解提取下载数据4.pipline：内容的储存Scrapy详细流程操作新建项目命令行下输入scrapy startproject Spider#创建一个名为Spider的项目...

2019-12-05 16:53:17 188

原创 Scrapy命令行常见错误与常用命令

Scrapy常见错误与命令常见报错Scrapy命令行出现 “没有该命令”的错误原因：可能没有将路径添加到环境变量或者安装了多个版本的python导致版本对不上。解决方案：cd到你的python文件夹，然后输入命令python -m scrapy。如果不行，可以试试python2 -m scrapy或python3 -m scrapy.常用命令scrapy startproject xx...

2019-12-05 15:03:10 378

原创机器学习的基本流程

机器学习流程数据准备1.导入自己的数据并爬取网上可能与预测目标相关的数据构建数据集2.查看数据结构并判断是回归问题还是分类问题df.head()#查看前5行df['a'].value_counts()#查看分类df.describe()#查看描述统计还有运用matplotlib.pyplot画图查看属性3.数据集拆分取出一部分数据作为测试集（运用最常用的sklearn库），防止...

2019-12-04 16:06:01 1065

原创 Pandas常用操作——机器学习前的准备

pandas常用操作笔记读取和储存pd.read_csv('file.csv')#读取csv文件pd.read_excel('file.xlsx')#读取xlsx文件df.to_csv('output.csv',index=False,header=['列名1','列名2'],encoding='utf-8-sig')#储存为csv文件，encoding为了解码中文，header设置表头，...

2019-12-03 17:11:16 173

原创爬虫案例——翻页爬取网页所有链接以及链接对应内容

翻页爬取网页所有链接以及对应内容（爬取静态网页未使用框架）爬取步骤1.对每一页发送请求2.获取每一页中的链接地址3.对链接的内容设置提取规则并爬取4.储存所有数据为CSV文件前置步骤#coding=utf-8import reimport osimport pandas as pdfrom bs4 import BeautifulSoupimport requests观...

2019-11-29 11:52:04 10221

原创爬虫基础

Python爬虫笔记爬虫的一般流程获取页面源代码设定提取规则爬虫的一般流程1.发送请求解析数据通过requests库或者urllib库发送网络请求并解析数据，从而获取网络的源代码文本。2.设定提取规则通过设定提取规则，可以使用re或者BeautifulSoup选择从网站上爬取的内容。3.保存数据可以选用pandas对文本类数据进行保存。附：以上流程也可以通过爬虫框架如scrapy实...

2019-11-23 19:38:01 277

qq_26601387的博客