爬虫
老白菜c
这个作者很懒,什么都没留下…
展开
-
爬取tx招聘的小记录
# -*- ecoding: utf-8 -*-# @ModuleName: SpiderTX# @Function: # @Author: C# @Time: 2021/10/28 19:46import module.spiderimport jsonimport jsonpathimport urllib.requestimport xlwtclass Spidertx(object): base_url = "https://careers.tencent.com原创 2021-10-29 17:02:47 · 90 阅读 · 0 评论 -
重拾爬虫day03
今天学的写入sqlite具体就是def init_db(dbpath): sql = ''' create table movie250 ( id integer primary key autoincrement, info_link text, pic_link text, cname varchar, ename varchar, score numeric, rated numeric,原创 2021-04-19 22:06:58 · 78 阅读 · 0 评论 -
重拾爬虫day02
今天可学的不少呀得好好消化消化首先是正则表达式的匹配使用方法refindTitle = re.compile("r'<p class="">(.*?)</p>',re.S") 里面填规则也就是格式然后再用re.findeall(findTitle,item) 前面是格式,后面是要查找的文档重要的是那个格式运用的是正则的规则,最好在规则前r 直接不编译里边的转义字符贴几个比较重要和基础的然后就是细节上边,比如说删除查找的东西中,有自己不想要的东西 bd = re.原创 2021-04-15 22:37:54 · 81 阅读 · 0 评论 -
重拾爬虫day01
先是要引用的库的作用:import urllib.request,urllib.error #制定url,获取网页数据import _sqlite3 #进行sqlite数据库操作from bs4 import BeautifulSoup #网页解析,获取数据import re #正则表达式,进行文字匹配import xlwt #进行excel操作第一步就是获取网页def askURL(url): head={ "User-Agent": "Mozilla / 5.0(原创 2021-04-14 21:56:56 · 78 阅读 · 0 评论 -
爬虫爬虫 day2 爬取校网文章
学习内容:1、简单爬取代码的运用2、文章和照片的保存学习产出:1、爬取代码import requests #导入requests库import bs4 #导入bs4库from bs4 import BeautifulSoup #导入BeautifulSoup库import urllib.requestimport osimport sysimport randomurl='http://www.sdpei.edu.cn/news-show-13417.html'r = requ原创 2020-12-06 18:58:50 · 216 阅读 · 0 评论 -
爬虫爬虫爬虫学习 day1:op.gg的爬取
学习目标:Python爬虫学习内容:1、 python爬虫简单语句的学习2、 理解爬虫语句学习产出:1.库的导入import requests #导入requests库import bs4 #导入bs4库from bs4 import BeautifulSoup #导入BeautifulSoup库2.返回html内容 r = requests.get(url,timeout = 30) r.raise_for_status() r.encoding = r.appar原创 2020-12-03 21:22:00 · 755 阅读 · 2 评论