python第四天之实战项目准备

首先你可能需要一些html、css知识。
python基本知识---->可以参考我之前的博客
控制台F12知识包括请求头相应头,重点为User-Agent(用来伪装客户端,防止不能爬)、cookie(存客户端信息的)—>参考

一、代码要注意

1、第一行要有 (代码可包含中文)

 -*- coding = utf-8 -*- 或者#coding=utf-8   

可以在File–> Settings -->File and Code Templates -->Python Script里面设置默认模板

#-*- coding = utf-8 ---*-
#@Time :${DATE} ${time} 
#@Author :千千
#@File : ${NAME}.py
#@Software :${PRODUCT_NAME}

2、测试入口 一般为main函数 ,便于理清思路

if __name__ == '__main__':

3、单行注释#

多行可以用快捷键 ctrl+/

4、引入模块

可以引入自定义模块(自己建的包下的文件)、系统模块(sys、os)、第三方模块(re)
from xx import xx

5、引入库的方式

第一种使用cmd pip xxx
或者使用powershell 在pycharm下面的Terminal

第二种 (常用)
如下路径点击加号,搜索库,点击Install Package开始安装,出现绿色就安装成功了。不成功的话就多安装几次。
在这里插入图片描述
在这里插入图片描述

二、了解爬取网页

爬取豆瓣top250电影
豆瓣网站

1、目的

爬取 名称、豆瓣评分、评价数、电影概况以及电影链接

网站规律:
每页25条数据start从0开始,每页网址为(n-1)*25.[n为页数]
https://movie.douban.com/top250?start=0/25/50

2、使用到的库

用途是否要手动下载
urllib.request,urllib.error指定URL不需要
bs4网页解析,获取数据需要下载
re正则表达式,文字匹配不需要
xlwt进行execl操作需要下载
sqlite3进行SQLite数据库操作2.5版本以上自带

视频来源:B站 IT私塾

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值