起因:爬取拉勾网职位信息模块的技术栈,实现把技术栈爬回之前的csv文件(以新增列的方式)
具体实现过程如下:
使用Pandas的read_csv方法读取csv文件里面的PositionId,访问对应的网址
设置headers、cookies、time.sleep、try-except,防止反爬机制
利用BeautifulSoup方法爬取对应源码并用html.parser实现转化成Html5格式
使用正则表达式清洗
使用jieba库中的jieba.lcut()方法进行单词统计并把结果保存进数组里
先把技术栈存入数组list_position_detail中(因为to_csv()方法,只保留最后一次的结果,得一次执行全部添加
再把技术栈存入字典中(因为可以根据字典的key,去对应保存在那一行),因为字典不能append,所以先用数组append,再转化为字典格式
使用Pandas的to_csv()方法添加列
就如下图中圈红的信息:
image.png
import requests
from bs4 import BeautifulSoup
import time
import random
import pandas as pd
import jieba
import re
import csv
import numpy as np
time1 = random.uniform(0.05,0.1)
time2 = random.uniform(0.1,0