一: 使用python的第三方包来获取User-Agent
1. 在cmd命令行中输入: pip install fake_useragent
2. 在代码中引用该包:
from fake_useragent import UserAgent
3. 使用该包:
ua = UserAgent()
'User_Agent': ua.random
二: 从网页上爬取的数据以简单网页形式展示
1. 首先爬虫写好,能在控制台上输出你想要的数据
2. 创建一个HTML file 文件
3. 为了方便,与使网页美观,这时候就要使用HTML的bootstrap工具包
将这个包放在所写代码的文件目录中
4. 打开HTML file
在<title>输入网页名称</title>
输入<link rel="stylesheet"(固定的) href="bootstrap-3.3.7-dist/css/bootstrap.css"(使用bootstrap的.css文件, 代码会自动提示)>
然后再<body></body>中写入源码
<div class = 'container'>
<table class="table(表)(这里创建表格) table-bordered table-hover table-responsive(这三个都是修饰这个表格,比如添加斑马线与阴影等)">
<tr>(表示行)
<td>content</td>(表示列)
<td>content</td>
<td>content</td>
<tr>
</table>
</div>
关于具体的bootstrap可以查看点击打开链接
with open('movie_info.html'(自己指定), 'w', encoding='utf-8') as f:
注意: 在将HTML源码写入代码的时候一定要注意HTML源码的完整性 有头有尾 标签一一对应
if (not) os.path.exists('文件夹名称'):
shutil.rmtree('文件夹名称', ignore_errors=True)
四: 将所爬取的数据写入表格当中
1. 首先爬虫写好,能在控制台上输出你想要的数据
2.
with open('文件名称', 'a', encoding='gbl18030'(这是写入表格防止乱码的编码格式) as f:
f.write(job_naem+','+data_time+','+money+'\n')
注意: 这里的','逗号必写就好像是在表格当中能空开一样!
当写入的数据比较多的时候可以:
with open('文件名称', 'a', encoding='gbl18030')
job_list = [job_name,data_time,money,'\n']
f.write(','.join(job_list))
这里使用join()
作用: join()函数主要用来拼接字符串
语法: 'sep'.join(seq)
参数说明
sep:分隔符。可以为空
seq:要连接的元素序列、字符串、元组、字典
上面的语法即:以sep作为分隔符,将seq所有的元素合并成一个新的字符串
返回值:返回一个以分隔符sep连接各个元素后生成的字符串
五: 打包py文件用于让客户直接运行查看效果
1. 在cmd中输入 pip install pyinstaller
2. 在所在py文件夹内按住shift键,接着在空白区域点击鼠标右键选择在此处命令行打开
3. 在新打开的命令行中输入 pyinstaller -F py文件名称.py(这里的.py可以直接按tab键系统会自动补充出来)
4. 运行结束后会出现一个disr文件夹.在这个文件夹内就可以找到打包好的py文件点击就可以直接运行.
注意: 在打包过程中最好不要出现任何中文,防止打包过程中出现不可预估的错误.